Questa pagina è stata tradotta dall'API Cloud Translation.

Set di dati: set di dati sbilanciati

Prendi in considerazione un set di dati contenente un'etichetta categorica il cui valore è Positivo o Negativo. In un set di dati equilibrato, il numero di etichette Positive e Negative è approssimativamente uguale. Tuttavia, se un'etichetta è più comune dell'altra, il set di dati è sbilanciato. L'etichetta predominante in un set di dati sbilanciato è chiamata classe di maggioranza; l'etichetta meno comune è chiamata classe di minoranza.

La tabella seguente fornisce nomi e intervalli generalmente accettati per diversi gradi di squilibrio:

Percentuale di dati appartenenti alla classe di minoranza	Grado di squilibrio
20-40% del set di dati	Moderato
1-20% del set di dati	Moderato
<1% del set di dati	Estremo

Ad esempio, prendiamo in considerazione un set di dati per il rilevamento di virus in cui la classe di minoranza rappresenta lo 0,5% del set di dati e la classe di maggioranza il 99,5%. Set di dati estremamente sbilanciati come questo sono comuni in medicina poiché la maggior parte dei soggetti non avrà il virus.

Figura 5. Grafico a barre con due barre. Una barra mostra circa 200
classi negative; l'altra barra mostra una classe positiva. — **Figura 5.** Set di dati estremamente sbilanciato.

A volte i set di dati sbilanciati non contengono esempi di classi minoritarie sufficienti per addestrare un modello correttamente. In altre parole, con così poche etichette positive, il modello viene addestrato quasi esclusivamente sulle etichette negative e non può apprendere abbastanza sulle etichette positive. Ad esempio, se la dimensione del batch è 50, molti batch non conterranno etichette positive.

Spesso, soprattutto per i set di dati leggermente sbilanciati e alcuni moderatamente sbilanciati, lo sbilanciamento non è un problema. Pertanto, prova prima a eseguire l'addestramento sul set di dati originale. Se il modello funziona bene, non devi fare altro. In caso contrario, almeno il modello non ottimale fornisce un buon valore di riferimento per esperimenti futuri. In seguito, puoi provare le seguenti tecniche per superare i problemi causati da set di dati sbilanciati.

Riduzione del campionamento e aumento del peso

Un modo per gestire un set di dati sbilanciato è ridurre il campione e aumentare il peso della classe di maggioranza. Ecco le definizioni di questi due nuovi termini:

Downsampling (in questo contesto) significa addestramento su un sottoinsieme sproporzionatamente ridotto degli esempi della classe di maggioranza.
Per sovrap ponderazione si intende l'aggiunta di un peso dell'esempio alla classe sottocampionata uguale al fattore per cui è stato eseguito il sottocampionamento.

Passaggio 1: riduci il campione della classe di maggioranza. Prendi in considerazione il set di dati sui virus mostrato nella Figura 5, che ha un rapporto di 1 etichetta positiva ogni 200 etichette negative. Il sottocampionamento di un fattore 10 migliora il rapporto a 1 positivo ogni 20 negativi (5%). Sebbene il set di addestramento risultante sia ancora moderatamente sbilanciato, la proporzione di esempi positivi rispetto a quelli negativi è molto migliore rispetto alla proporzione estremamente sbilanciata originale (0,5%).

Immagine 6. Grafico a barre con due barre. Una barra mostra 20 classi negative, mentre l'altra mostra una classe positiva. — **Figura 6.** Riduzione della frequenza di campionamento.

Passaggio 2: aumenta il peso della classe sottocampionata: aggiungi i pesi esempi alla classe sottocampionata. Dopo il sottocampionamento per un fattore di 10, il peso dell'esempio deve essere 10. Sì, può sembrare controintuitivo, ma lo spiegheremo più avanti.

Immagine 7. Un diagramma in due passaggi di downsampling e upweighting.
Passaggio 1: il sottocampionamento estrae esempi casuali dalla classe di maggioranza. Passaggio 2: l'aumento del peso aggiunge un peso agli esempi campionati inferiormente. — **Figura 7.** Aumento del peso.

Il termine peso non si riferisce ai parametri del modello (ad es. w₁ o w₂). Qui, peso si riferisce ai pesi degli esempi, che aumentano l'importanza di un singolo esempio durante l'addestramento. Un peso dell'esempio pari a 10 indica che il modello lo considera 10 volte più importante (durante il calcolo della perdita) rispetto a un esempio di peso 1.

Il peso deve essere uguale al fattore utilizzato per il sottocampionamento:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Potrebbe sembrare strano aggiungere pesi di esempio dopo il sottocampionamento. Dopotutto, stai tentando di migliorare il modello per la classe di minoranza, quindi perché dare più peso alla classe di maggioranza? Infatti, l'aumento del peso della classe di maggioranza tende a ridurre il bias di previsione. In altre parole, l'aumento del peso dopo il sottocampionamento tende a ridurre il delta tra la media delle previsioni del modello e la media delle etichette del set di dati.

Fai clic sull'icona per scoprire di più sul sottocampionamento e sul potenziamento.

Potresti anche chiederti se l'aumento del peso annulla il sottocampionamento. Sì, in una certa misura. Tuttavia, la combinazione di upweighting e downsampling consente ai mini-batch di contenere un numero sufficiente di classi di minoranza per addestrare un modello efficace.

In genere, l'aumento del peso della classe di minoranza da sola è più facile da implementare rispetto al sottocampionamento e all'aumento del peso della classe di maggioranza. Tuttavia, l'aumento del peso della classe di minoranza tende ad aumentare il bias di previsione.

Il sottocampionamento della classe di maggioranza offre i seguenti vantaggi:

Convergenza più rapida: durante l'addestramento, il modello vede più spesso la classe di minoranza, il che lo aiuta a convergere più rapidamente.
Meno spazio su disco: consolidando la classe di maggioranza in meno esempi con pesi maggiori, il modello utilizza meno spazio su disco per archiviare questi pesi. Questo risparmio consente di avere più spazio su disco per la classe di minoranza, in modo che il modello possa raccogliere un numero maggiore e una gamma più ampia di esempi di quella classe.

Purtroppo, in genere devi sottocampionare manualmente la classe di maggioranza, il che può richiedere molto tempo durante gli esperimenti di addestramento, in particolare per set di dati molto grandi.

Rapporti di ribilanciamento

Quanto devi ridurre il campione e aumentare il peso per ristabilire l'equilibrio del set di dati? Per determinare la risposta, devi fare esperimenti con il rapporto di riadattamento, come faresti con altri iperparametri. Detto questo, la risposta dipende in ultima analisi dai seguenti fattori:

La dimensione del batch
Il rapporto di squilibrio
Il numero di esempi nel set di addestramento

Idealmente, ogni batch dovrebbe contenere più esempi di classi di minoranza. I batch che non contengono un numero sufficiente di classi di minoranza avranno un'addestramento molto scarso. La dimensione del batch deve essere molte volte maggiore del rapporto di sbilanciamento. Ad esempio, se il rapporto di sbilanciamento è 100:1, la dimensione del batch deve essere almeno 500.

Esercizio: verifica di aver compreso

Considera la seguente situazione:

Il set di addestramento contiene poco più di un miliardo di esempi.
La dimensione del batch è 128.
Il rapporto di sbilanciamento è 100:1, quindi l'insieme di addestramento è suddiviso come segue:
- Circa 1 miliardo di esempi di classe di maggioranza.
- Circa 10 milioni di esempi di classi di minoranza.

Quali delle seguenti affermazioni sono vere?

L'aumento della dimensione del batch a 1024 migliorerà il modello risultante.

Con una dimensione del batch di 1024, ogni batch conterrà in media circa 10 esempi di classi di minoranza, il che dovrebbe contribuire a addestrare un modello molto migliore.

Mantenendo la dimensione del batch a 128, ma sottocampionando (e aumentando il peso) a 20:1 migliorerà il modello risultante.

Grazie al sottocampionamento, ogni batch di 128 avrà in media circa 21 esempi di classi di minoranza, che dovrebbero essere sufficienti per addestrare un modello utile. Tieni presente che il sottocampionamento riduce il numero di esempi nel set di addestramento da poco più di un miliardo a circa 60 milioni.

Gli iperparametri attuali vanno bene.

Con una dimensione del batch pari a 128, ogni batch conterrà in media circa un esempio di classe minoritaria, il che potrebbe non essere sufficiente per addestrare un modello utile.

Indietro

Etichette (10 min)

Avanti

Divisione del set di dati originale (10 min)