Questa pagina contiene termini del glossario dei modelli di sequenza. Per tutti i termini del glossario, fai clic qui.
B
bigram
Un N-grammo in cui N=2.
E
problema con gradiente che esplode
La tendenza ai gradienti nelle reti neurali profonde (in particolare nelle reti neurali ricorrenti) a diventare molto marcata (elevata). Gradienti ripide spesso causano aggiornamenti molto grandi delle ponderazioni di ogni nodo in una rete neurale profonda.
L'addestramento di modelli con un gradiente che esplode è difficile o impossibile da addestrare. Taglio di sfumatura può ridurre il problema.
Confrontalo con il problema di gradiente in fuga.
F
cancellare la porta
La porzione di una cella di memoria a breve termine che regola il flusso di informazioni attraverso la cella. Dimentica le porte e mantieni il contesto decidendo quali informazioni eliminare dallo stato della cella.
G
ritaglio a gradiente
Meccanismo di uso comune per mitigare il problema di gradiente che esplode, limitando artificialmente (tagliando) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.
L
LSTM (Long Short-Term Memory).
Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano libera, la traduzione automatica e l'assegnazione di didascalie alle immagini. Gli LSTM risolvono il problema del gradiente di fuga che si verifica durante l'addestramento degli RNN a causa di lunghe sequenze di dati mantenendo la cronologia in uno stato della memoria interna in base ai nuovi input e al contesto delle celle precedenti nell'RNN.
LSTM
Abbreviazione di Long Short-Term Memory.
N
N-grammo
Una sequenza ordinata di N parole. Ad esempio, davvero folle è una pesata di 2 grammi. Poiché l'ordine è importante, ma molto di più 2 grammi di peso è diverso da davvero pazzesco.
N | Nomi per questo tipo di n-grammi | Esempi |
---|---|---|
2 | bigram o 2 grammi | andare, andare a, pranzare, cenare |
3 | trigramma o 3 grammi | mangiare troppo, tre topi ciechi, il campanello suona |
4 | 4 grammi | camminare nel parco, polvere al vento, il ragazzo mangiava lenticchie |
Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiti o pronuncerà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello NLU basato sui trigrammi probabilmente prevede che l'utente digiterà poi i topo.
Metti a confronto N-grammi con sacco di parole, che sono insiemi di parole non ordinati.
R
rete neurale ricorrente
Una rete neurale eseguita intenzionalmente più volte, in cui le parti di ogni esecuzione alimentano l'esecuzione successiva. In particolare, i livelli nascosti nell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto all'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per la valutazione delle sequenze, in modo che i livelli nascosti possano apprendere dalle esecuzioni precedenti della rete neurale nelle parti precedenti della sequenza.
Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Nota che i valori appresi nei livelli nascosti dalla prima esecuzione diventano parte dell'input per gli stessi livelli nascosti nella seconda esecuzione. Analogamente, i valori appresi nel livello nascosto alla seconda esecuzione diventano parte dell'input per lo stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente addestra e prevede gradualmente il significato dell'intera sequenza anziché solo il significato delle singole parole.
RNN
Abbreviazione di reti neurali ricorrenti.
S
modello di sequenza
Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il video successivo guardato da una sequenza di video guardati in precedenza.
T
passo temporale
Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre passaggi temporali (etichettati con i pedici t-1, t e t+1):
trigramma
Un N-grammo in cui N=3.
V
problema di gradiente che svanisce
La tendenza a rendere sorprendentemente piatta (bassa) i gradienti dei primi livelli nascosti di alcune reti neurali profonde. Gradienti sempre più bassi comportano modifiche sempre più piccole delle ponderazioni sui nodi di una rete neurale profonda, con conseguente basso o nessun apprendimento. I modelli con problemi di gradiente diminuito diventano difficili o impossibili da addestrare. Le celle della memoria a breve termine risolvono questo problema.
Confrontalo con il problema di gradiente che esplode.