Overfitting: regolarizzazione L2

L2 regolarizzazione è una metrica di regolarizzazione molto diffusa, che utilizza la seguente formula:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Ad esempio, la tabella seguente mostra il calcolo di L2 regolarizzazione per un modello con sei pesi:

Valore Valore al quadrato
S1 0,2 0,04
S2 -0,5 0,25
S3 5,0 25,0
S4 -1.2 1,44
S5 0,3 0,09
S6 -0,1 0,01
    26,83 = totale

Tieni presente che le ponderazioni vicine a zero non influiscono sulla regolarizzazione L2 molto, ma pesi grandi possono avere un impatto enorme. Ad esempio, nel calcolo precedente:

  • Una singola ponderazione (w3) rappresenta circa il 93% del complessità totale.
  • Le altre cinque ponderazioni contribuiscono collettivamente solo al 7% circa complessità totale.

La regolarizzazione L2 incoraggia i pesi verso 0, ma non spinge mai i pesi fino a 0.

Esercizi: verifica le tue conoscenze

Se utilizzi la regolarizzazione L2 durante l'addestramento di un modello, dipende in genere dalla complessità generale del modello?
È probabile che la complessità generale del sistema diminuisca.
Poiché la regolarizzazione L2 incoraggia le ponderazioni verso 0, probabilmente la complessità generale diminuirà.
Probabilmente la complessità complessiva del modello rimarrà costante.
È molto improbabile.
La complessità complessiva del modello probabilmente aumenterà.
È improbabile. Ricorda che la regolarizzazione L2 incoraggia le ponderazioni verso 0.
Se utilizzi la regolarizzazione L2 durante l'addestramento di un modello, alcune caratteristiche verranno rimosse dal modello.
Vero
Sebbene la regolarizzazione L2 possa rendere alcuni pesi piccolo, non spingerà mai alcun peso fino a zero. Di conseguenza, tutte le funzionalità contribuiranno comunque a del modello.
Falso
La regolarizzazione L2 non spinge mai i pesi fino a zero.

Tasso di regolarizzazione (lambda)

Come indicato, l'addestramento cerca di ridurre al minimo una combinazione di perdita e complessità:

$$\text{minimize(loss} + \text{ complexity)}$$

Gli sviluppatori di modelli ottimizzano l'impatto complessivo della complessità sull'addestramento del modello moltiplicando il suo valore per uno scalare chiamato tasso di regolarizzazione. Il carattere greco lambda di solito simboleggia il tasso di regolarizzazione.

In altre parole, gli sviluppatori di modelli mirano a:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Un tasso di regolarizzazione elevato:

  • Rafforza l'influenza della regolarizzazione, riducendo così le possibilità di l'overfitting.
  • Tende a produrre un istogramma di pesi del modello avente quanto segue caratteristiche:
    • una distribuzione normale
    • con una ponderazione media pari a 0.

Una percentuale di regolarizzazione bassa:

  • Riduce l'influenza della regolarizzazione, aumentando così le possibilità di l'overfitting.
  • Tende a produrre un istogramma dei pesi del modello con una distribuzione piatta.

Ad esempio, l'istogramma delle ponderazioni del modello per un tasso di regolarizzazione elevato come mostrato nella Figura 18.

Figura 18. Istogramma dei pesi di un modello con media pari a zero e
            una normale distribuzione.
. Figura 18. Istogramma del peso per un tasso di regolarizzazione elevato. La media è zero. Distribuzione normale.

 

Al contrario, un tasso di regolarizzazione basso tende a produrre un istogramma più piatto, poiché come mostrato nella Figura 19.

Figura 19. Istogramma dei pesi di un modello con media zero che
            è a metà strada tra una distribuzione piatta e una normale
            distribuzione dei contenuti.
. Figura 19. Istogramma del peso per una percentuale di regolarizzazione bassa. La media può essere o meno pari a zero.

 

Scegliere il tasso di regolarizzazione

Il tasso di regolarizzazione ideale produce un modello che generalizza bene nuovi dati non visti in precedenza. Purtroppo questo valore ideale dipende dai dati, quindi devi fare dell'ottimizzazione.

Interruzione anticipata: un'alternativa alla regolarizzazione basata sulla complessità

L'interruzione anticipata è un metodo di regolarizzazione che non prevede un calcolo della complessità. L'interruzione anticipata significa semplicemente terminare l'addestramento prima del modello converge completamente. Ad esempio, termini l'addestramento quando la curva di perdita del set di convalida inizia ad aumentare (la pendenza diventa positiva).

Sebbene l'interruzione anticipata di solito aumenti la perdita dell'addestramento, può diminuire perdita di test.

L'interruzione anticipata è una forma di regolarizzazione rapida ma raramente ottimale. È molto improbabile che il modello risultante sia di qualità pari a quello di un modello addestrato il tasso di regolarizzazione ideale.

Trovare l'equilibrio tra tasso di apprendimento e tasso di regolarizzazione

Tasso di apprendimento e il tasso di regolarizzazione tende a tirare i pesi in indicazioni stradali. Un tasso di apprendimento elevato spesso elimina le ponderazioni da zero; un'elevata frequenza di regolarizzazione porta i pesi verso zero.

Se il tasso di regolarizzazione è alto rispetto al tasso di apprendimento, i pesi deboli tendono a produrre un modello che fa previsioni scadenti. Al contrario, se il tasso di apprendimento è elevato rispetto alla regolarizzazione ponderato, le ponderazioni forti tendono a produrre un modello di overfitting.

Il tuo obiettivo è trovare l'equilibrio tra tasso di apprendimento e tasso di regolarizzazione. Questo può essere difficile. La cosa peggiore, una volta individuato questo equilibrio sfuggente, potresti dover cambiare il tasso di apprendimento. Quando modifichi il tasso di apprendimento, devi di nuovo trovare lo strumento ideale tasso di regolarizzazione.