Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Overfitting: regolarizzazione L2

La regolarizzazione L₂ è una metrica di regolarizzazione molto diffusa, che utilizza la seguente formula:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Ad esempio, la tabella seguente mostra il calcolo della regolarizzazione L₂ per un modello con sei pesi:

	Valore	Valore al quadrato
w₁	0,2	0,04
w₂	-0,5	0,25
w₃	5,0	25,0
w₄	-1.2	1,44
w₅	0,3	0,09
w₆	-0,1	0,01
		26,83 = totale

Nota che i pesi vicini allo zero non influiscono molto sulla regolarizzazione L₂, ma i pesi elevati possono avere un impatto enorme. Ad esempio, nel calcolo precedente:

Un singolo peso (w₃) contribuisce per circa il 93% alla complessità totale.
Gli altri cinque pesi contribuiscono collettivamente solo per circa il 7% della complessità totale.

La regolarizzazione L₂ incoraggia i pesi verso lo zero, ma non li spinge mai fino a zero.

Esercizi: verifica le tue conoscenze

Se utilizzi la regolarizzazione L₂ durante l'addestramento di un modello, cosa accadrà in genere alla complessità complessiva del modello?

La complessità complessiva del sistema probabilmente diminuirà.

Poiché la regolarizzazione L₂ incoraggia i pesi a tendere a 0, la complessità complessiva probabilmente diminuirà.

La complessità complessiva del modello probabilmente rimarrà costante.

È molto improbabile.

La complessità complessiva del modello probabilmente aumenterà.

È improbabile. Ricorda che la regolarizzazione L₂ incoraggia le ponderazioni a tendere a 0.

Se utilizzi la regolarizzazione L₂ durante l'addestramento di un modello, alcune funzionalità verranno rimosse dal modello.

Vero

Sebbene la regolarizzazione L₂ possa rendere alcuni pesi molto piccoli, non li azzererà mai. Di conseguenza, tutte le caratteristiche contribuiranno comunque al modello.

Falso

La regolarizzazione L₂ non azzera mai i pesi.

Tasso di regolarizzazione (lambda)

Come indicato, l'addestramento tenta di ridurre al minimo una combinazione di perdita e complessità:

$$\text{minimize(loss} + \text{ complexity)}$$

Gli sviluppatori di modelli regolano l'impatto complessivo della complessità sull'addestramento del modello moltiplicando il suo valore per uno scalare chiamato tasso di regolarizzazione. Il carattere greco lambda simboleggia in genere il tasso di regolarizzazione.

ovvero, gli sviluppatori di modelli mirano a:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Un tasso di regolarizzazione elevato:

Rafforza l'influenza della regolarizzazione, riducendo così le possibilità di overfitting.
Tende a produrre un istogramma dei pesi del modello con le seguenti caratteristiche:
- una distribuzione normale
- un peso medio di 0.

Un tasso di regolarizzazione basso:

Riduce l'influenza della regolarizzazione, aumentando così le possibilità di overfitting.
Tende a produrre un istogramma dei pesi del modello con una distribuzione piatta.

Ad esempio, l'istogramma dei pesi del modello per un tasso di regolarizzazione elevato potrebbe avere l'aspetto mostrato nella Figura 18.

Figura 18. Istogramma dei pesi di un modello con media pari a zero e
una distribuzione normale. — **Figura 18.** Istogramma dei pesi per un tasso di regolarizzazione elevato. La media è zero. Distribuzione normale.

Al contrario, un tasso di regolarizzazione basso tende a produrre un istogramma più piatto, come mostrato nella Figura 19.

Figura 19. Istogramma dei pesi di un modello con una media pari a zero che
si trova a metà strada tra una distribuzione piatta e una distribuzione normale. — **Figura 19.** Istogramma dei pesi per un tasso di regolarizzazione basso. La media può essere o meno pari a zero.

Scelta del tasso di regolarizzazione

Il tasso di regolarizzazione ideale produce un modello che generalizza bene i dati nuovi e mai visti in precedenza. Purtroppo, questo valore ideale dipende dai dati, quindi devi eseguire l'ottimizzazione tuning.

Interruzione anticipata: un'alternativa alla regolarizzazione basata sulla complessità

L'interruzione anticipata è un metodo di regolarizzazione che non prevede un calcolo della complessità. L'interruzione anticipata, invece, significa semplicemente terminare l'addestramento prima che il modello converga completamente. Ad esempio, l'addestramento termina quando la curva di perdita per il set di validazione inizia ad aumentare (la pendenza diventa positiva).

Sebbene l'interruzione anticipata di solito aumenti la perdita di addestramento, può diminuire la perdita di test.

L'interruzione anticipata è una forma di regolarizzazione rapida, ma raramente ottimale. È molto improbabile che il modello risultante sia buono come un modello addestrato in modo approfondito al tasso di regolarizzazione ideale.

Trovare l'equilibrio tra il tasso di apprendimento e il tasso di regolarizzazione

Il tasso di apprendimento e il tasso di regolarizzazione tendono a spostare i pesi in direzioni opposte. Un tasso di apprendimento elevato spesso allontana i pesi da zero; un tasso di regolarizzazione elevato spinge i pesi verso zero.

Se il tasso di regolarizzazione è elevato rispetto al tasso di apprendimento, i pesi deboli tendono a produrre un modello che fa previsioni imprecise. Al contrario, se il tasso di apprendimento è elevato rispetto al tasso di regolarizzazione, i pesi elevati tendono a produrre un modello di overfitting.

Il tuo obiettivo è trovare l'equilibrio tra il tasso di apprendimento e il tasso di regolarizzazione. Può essere difficile. Peggio ancora, una volta trovato l'equilibrio elusivo, potresti dover modificare il tasso di apprendimento. Inoltre, quando modifichi il tasso di apprendimento, dovrai trovare di nuovo il tasso di regolarizzazione ideale.

Indietro

Complessità del modello (10 min)

Avanti

Interpretazione delle curve di perdita (10 min)