Il machine learning sarebbe molto più semplice se tutti curve di perdita la prima volta che hai addestrato il modello:
Purtroppo, le curve di perdita sono spesso difficili da interpretare. Utilizza il tuo intuizione sulle curve di perdita per risolvere gli esercizi in questa pagina.
Esercizio 1: curva di perdita oscillante
Quali tre cose potresti fare per provare a migliorare la curva di perdita
come mostrato nella Figura 21.
Confronta i tuoi dati con uno schema di dati per rilevare esempi errati e
quindi rimuovi gli esempi errati dal set di addestramento.
Sì, è una buona prassi per tutti i modelli.
Riduci il tasso di apprendimento.
Sì, ridurre il tasso di apprendimento è spesso una buona idea durante il debug di un
un problema di addestramento.
Riduci il set di addestramento a un numero ridotto di esempi affidabili.
Sebbene questa tecnica sembri artificiale, in realtà è una buona
dell'IA. Supponendo che il modello confluisca sul piccolo insieme
di esempi affidabili, puoi aggiungerne gradualmente
magari scoprendo quali esempi causano la curva di perdita
oscillare.
Aumentare il numero di esempi nel set di addestramento.
Si tratta di un'idea allettante, ma è molto improbabile che venga risolta
risolvere il problema.
Aumentare il tasso di apprendimento.
In generale, evita di aumentare il tasso di apprendimento quando
della curva di apprendimento indica un problema.
Esercizio 2. Curva di perdita con un salto netto
Quali due delle seguenti affermazioni identificano le possibili
i motivi della perdita esplosiva mostrati nella Figura 22.
I dati di input contengono uno o più NaN, ad esempio un valore
sia causato da una divisione per zero.
Si tratta di una situazione più comune di quanto ci si possa aspettare.
I dati di input contengono un'esplosione di outlier.
A volte, a causa di uno shuffling non corretto dei batch, un batch potrebbe
contengono molti outlier.
Il tasso di apprendimento è troppo basso.
Un tasso di apprendimento molto basso può aumentare i tempi di addestramento, ma
non è la causa di una strana curva di perdita.
La percentuale di regolarizzazione è troppo elevata.
Una regolarizzazione molto elevata potrebbe impedire a un modello
converging; ma non verrà creata una strana curva di perdita
come mostrato nella Figura 22.
Esercizio 3. La perdita di test differisce dalla perdita di addestramento
Quale una delle seguenti affermazioni identifica meglio
il motivo di questa differenza tra le curve di perdita dell'addestramento
e set di test?
Il modello è in overfitting del set di addestramento.
Sì, probabilmente lo è. Possibili soluzioni:
- Semplifica il modello, possibilmente riducendo il numero di funzionalità.
- Aumentare la frequenza di regolarizzazione.
- Assicurarsi che il set di addestramento e il set di test siano statisticamente equivalenti.
Il tasso di apprendimento è troppo alto.
Se il tasso di apprendimento è troppo alto, la curva di perdita per il set di addestramento
probabilmente non si sarebbe comportato come prima.
Esercizio 4. La curva di perdita si blocca
Quale una delle seguenti affermazioni è la più probabile
spiegazione della curva di perdita irregolare mostrata nella Figura 24?
Il set di addestramento contiene sequenze ripetitive di esempi.
Questa è una possibilità. Assicurati di eseguire lo shuffling degli esempi in modo casuale
a sufficienza.
La percentuale di regolarizzazione è troppo elevata.
È improbabile che questa sia la causa.
Il set di addestramento contiene troppe caratteristiche.
È improbabile che questa sia la causa.