Glossario del machine learning: modelli di sequenza

Questa pagina contiene i termini del glossario di Modelli di sequenza. Per tutti i termini del glossario, fai clic qui.

B

bigramma

#seq
#language

Un n-gramma in cui N=2.

E

problema del gradiente esplosivo

#seq

La tendenza dei gradienti nelle reti neurali profonde (in particolare reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). Le derive ripide spesso causano aggiornamenti molto elevati ai pesi di ogni nodo in una rete neurale profonda.

I modelli che presentano il problema dell'esplosione del gradiente diventano difficili o impossibili da addestrare. Il taglio del gradiente può mitigare questo problema.

Confronta con il problema di scomparsa del gradiente.

F

gate di dimenticanza

#seq

La parte di una cellula Long Short-Term Memory che regola il flusso di informazioni all'interno della cellula. I cancelli di dimenticanza mantengono il contesto decidendo quali informazioni eliminare dallo stato della cella.

G

taglio del gradiente

#seq

Un meccanismo di uso comune per mitigare il problema del gradiente esplosivo limitando artificialmente (tagliando) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

L

Long Short-Term Memory (LSTM)

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano, la traduzione automatica e la creazione di didascalie per le immagini. Le LSTM risolvono il problema del gradiente che scompare che si verifica durante l'addestramento delle RNN a causa di sequenze di dati lunghe mantenendo la cronologia in uno stato di memoria interna in base al nuovo input e al contesto delle celle precedenti nella RNN.

LSTM

#seq

Abbreviazione di memoria a lungo termine.

No

N-gramma

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, truly madly è un bigramma. Poiché l'ordine è pertinente, madly truly è un bigramma diverso da truly madly.

No Nome o nomi per questo tipo di n-gramma Esempi
2 bigramma o 2-gramma to go, go to, eat lunch, eat dinner
3 trigramma o 3-gramma ate too much, three blind mice, the bell tolls
4 4 grammi camminare nel parco, polvere nel vento, il ragazzo ha mangiato lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-gram per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello di NLU basato su trigrammi probabilmente prevede che l'utente digiterà topi.

Confronta gli n-grammi con i bag of words, che sono insiemi non ordinati di parole.

R

rete neurale ricorrente

#seq

Una rete neurale che viene eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono inserite in quella successiva. Nello specifico, i livelli nascosti dell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto nell'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti possano apprendere dalle esecuzioni precedenti della rete neurale sulle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Tieni presente che i valori appresi nei livelli nascosti della prima esecuzione diventano parte dell'input degli stessi livelli nascosti nella seconda esecuzione. Analogamente, i valori appresi nel livello nascosto nella seconda esecuzione diventano parte dell'input dello stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente si addestra gradualmente e predittivo il significato dell'intera sequenza anziché solo il significato delle singole parole.

Un'RNN che viene eseguita quattro volte per elaborare quattro parole di input.

RNN

#seq

Abbreviazione di reti neurali ricorrenti.

S

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il prossimo video guardato da una sequenza di video guardati in precedenza.

T

timestep

#seq

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre intervalli di tempo (etichettati con i sottoindici t-1, t e t+1):

Tre intervalli di tempo in una rete neurale ricorrente. L'output del
          primo timestep diventa l'input del secondo timestep. L'output
          del secondo timestep diventa l'input del terzo timestep.

trigramma

#seq
#language

Un n-gramma in cui N=3.

V

problema di scomparsa del gradiente

#seq

La tendenza dei gradienti dei primi livelli nascosti di alcune reti neurali profonde a diventare sorprendentemente piatti (bassi). Gradienti sempre più bassi comportano modifiche sempre più piccole ai pesi dei nodi di una rete neurale profonda, con un apprendimento ridotto o nullo. I modelli che presentano il problema di scomparsa del gradiente diventano difficili o impossibili da addestrare. Le celle memoria a lungo termine risolvono questo problema.

Confrontalo con il problema del gradiente esplosivo.