Overfitting: interpretare le curve di perdita

Il machine learning sarebbe molto più semplice se tutte le curve di perdita avessero questo aspetto la prima volta che addestravi il modello:

Figura 20. Un grafico che mostra la curva di perdita ideale durante l'addestramento di un
            modello di machine learning. La curva di perdita traccia la perdita sull'asse y
            rispetto al numero di passaggi di addestramento sull'asse x. Con l'aumentare del numero di passaggi di addestramento, la perdita inizia alta, poi diminuisce in modo esponenziale e infine si appiattisce fino a raggiungere una perdita minima.
Figura 20. Una curva di perdita ideale.

Sfortunatamente, le curve di perdita sono spesso difficili da interpretare. Utilizza la tua intuizione sulle curve di perdita per risolvere gli esercizi in questa pagina.

Esercizio 1: curva di perdita oscillante

Figura 21. Una curva di perdita (perdita sull'asse y; numero di passaggi di addestramento sull'asse x) in cui la perdita non si appiattisce.
            Invece, la perdita oscilla in modo irregolare.
Figura 21. Curva di perdita oscillante.
Quali tre azioni puoi intraprendere per provare a migliorare la curva di perdita riportata nella Figura 21?
Aumentare il tasso di apprendimento.
Riduci il set di addestramento a un numero ridotto di esempi attendibili.
Controlla i dati rispetto a uno schema di dati per rilevare gli esempi errati, quindi rimuovili dal set di addestramento.
Riduci il tasso di apprendimento.
Aumenta il numero di esempi nel set di addestramento.

Esercizio 2. Curva di perdita con un salto netto

Figura 22. Un grafico della curva di perdita che mostra la perdita in diminuzione fino a un
            determinato numero di passaggi di addestramento e poi aumenta improvvisamente
            con ulteriori passaggi di addestramento.
Figura 22. Aumento netto delle perdite.
Quali due delle seguenti affermazioni identificano possibili motivi per la perdita esplosiva mostrata nella Figura 22.
I dati di input contengono una serie di valori anomali.
Il tasso di apprendimento è troppo basso.
I dati di input contengono uno o più valori NaN, ad esempio un valore causato da una divisione per zero.
Il tasso di regolarizzazione è troppo elevato.

Esercizio 3. La perdita del test diverge dalla perdita di addestramento

Figura 23. La curva di perdita di addestramento sembra convergere, ma la perdita di convalida inizia ad aumentare dopo un determinato numero di passaggi di addestramento.
Figura 23. Aumento netto delle perdite di convalida.
Quale delle seguenti affermazioni identifica meglio il motivo di questa differenza tra le curve di perdita dei set di addestramento e di test?
Il tasso di apprendimento è troppo elevato.
Il modello presenta un overfitting del set di addestramento.

Esercizio 4. La curva di perdita si blocca

Figura 24. Un grafico di una curva di perdita che mostra la perdita che inizia a convergere con l'addestramento, ma che poi mostra pattern ripetuti che assomigliano a un'onda rettangolare.
Figura 24. Perdita caotica dopo un determinato numero di passaggi.
Quale delle seguenti affermazioni è la spiegazione più probabile per la curva di perdita erratica mostrata nella Figura 24?
Il set di addestramento contiene sequenze ripetitive di esempi.
Il set di addestramento contiene troppe funzionalità.
Il tasso di regolarizzazione è troppo elevato.