Glossario del machine learning: modelli di sequenza

Questa pagina contiene termini del glossario dei modelli di sequenza. Per tutti i termini del glossario, fai clic qui.

B

bigram

#seq
#language

Un N-grammo in cui N=2.

E

problema con gradiente che esplode

#seq

La tendenza ai gradienti nelle reti neurali profonde (in particolare nelle reti neurali ricorrenti) a diventare molto marcata (elevata). Gradienti ripide spesso causano aggiornamenti molto grandi delle ponderazioni di ogni nodo in una rete neurale profonda.

L'addestramento di modelli con un gradiente che esplode è difficile o impossibile da addestrare. Taglio di sfumatura può ridurre il problema.

Confrontalo con il problema di gradiente in fuga.

F

cancellare la porta

#seq

La porzione di una cella di memoria a breve termine che regola il flusso di informazioni attraverso la cella. Dimentica le porte e mantieni il contesto decidendo quali informazioni eliminare dallo stato della cella.

G

ritaglio a gradiente

#seq

Meccanismo di uso comune per mitigare il problema di gradiente che esplode, limitando artificialmente (tagliando) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

L

LSTM (Long Short-Term Memory).

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano libera, la traduzione automatica e l'assegnazione di didascalie alle immagini. Gli LSTM risolvono il problema del gradiente di fuga che si verifica durante l'addestramento degli RNN a causa di lunghe sequenze di dati mantenendo la cronologia in uno stato della memoria interna in base ai nuovi input e al contesto delle celle precedenti nell'RNN.

LSTM

#seq

Abbreviazione di Long Short-Term Memory.

N

N-grammo

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, davvero folle è una pesata di 2 grammi. Poiché l'ordine è importante, ma molto di più 2 grammi di peso è diverso da davvero pazzesco.

N Nomi per questo tipo di n-grammi Esempi
2 bigram o 2 grammi andare, andare a, pranzare, cenare
3 trigramma o 3 grammi mangiare troppo, tre topi ciechi, il campanello suona
4 4 grammi camminare nel parco, polvere al vento, il ragazzo mangiava lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiti o pronuncerà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello NLU basato sui trigrammi probabilmente prevede che l'utente digiterà poi i topo.

Metti a confronto N-grammi con sacco di parole, che sono insiemi di parole non ordinati.

R

rete neurale ricorrente

#seq

Una rete neurale eseguita intenzionalmente più volte, in cui le parti di ogni esecuzione alimentano l'esecuzione successiva. In particolare, i livelli nascosti nell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto all'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per la valutazione delle sequenze, in modo che i livelli nascosti possano apprendere dalle esecuzioni precedenti della rete neurale nelle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Nota che i valori appresi nei livelli nascosti dalla prima esecuzione diventano parte dell'input per gli stessi livelli nascosti nella seconda esecuzione. Analogamente, i valori appresi nel livello nascosto alla seconda esecuzione diventano parte dell'input per lo stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente addestra e prevede gradualmente il significato dell'intera sequenza anziché solo il significato delle singole parole.

Un RNN che viene eseguito quattro volte per elaborare quattro parole di input.

RNN

#seq

Abbreviazione di reti neurali ricorrenti.

S

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il video successivo guardato da una sequenza di video guardati in precedenza.

T

passo temporale

#seq

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre passaggi temporali (etichettati con i pedici t-1, t e t+1):

Tre passaggi temporali in una rete neurale ricorrente. L'output del primo passo temporale diventa input per il secondo passo temporale. L'output del secondo passo temporale diventa input per il terzo passo temporale.

trigramma

#seq
#language

Un N-grammo in cui N=3.

V

problema di gradiente che svanisce

#seq

La tendenza a rendere sorprendentemente piatta (bassa) i gradienti dei primi livelli nascosti di alcune reti neurali profonde. Gradienti sempre più bassi comportano modifiche sempre più piccole delle ponderazioni sui nodi di una rete neurale profonda, con conseguente basso o nessun apprendimento. I modelli con problemi di gradiente diminuito diventano difficili o impossibili da addestrare. Le celle della memoria a breve termine risolvono questo problema.

Confrontalo con il problema di gradiente che esplode.