Ta strona zawiera terminy glosariusza występujące w modelu sekwencji. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.
B
Bigram
N-gram, w którym N=2.
1
problem z eksplodowanym gradientem
Tendencja gradientów w głębokich sieciach neuronowych (zwłaszcza powtórnych sieci neuronowych) do zaskakująco wysokich (wysokich). Strome gradienty często powodują dużą aktualizację wagkażdego węzła węzłaneurual.
Modele z wykorzystaniem eksplodującego gradientu stają się trudne lub nie można ich wytrenować. Przycinanie gradientów może ograniczyć ten problem.
Porównaj z problemem z wycofaniem gradientu.
Pt
Zapomnij bramę
Część długotrwałej pamięci krótkoterminowej, która reguluje przepływ informacji przez komórkę. Zapomnij o bramach, określając kontekst, wybierając informacje do usunięcia ze stanu komórki.
G
przycinanie gradientu
Powszechnie stosowany mechanizm minimalizujący problemy z gradientem polegające na sztucznym ograniczaniu (czyli przycinaniu) maksymalnej wartości gradientów podczas trenowania modelu.
L
Pamięć krótkoterminowa (LSTM)
Rodzaj komórki w powtarzającej się sieci neuronowej używanej do przetwarzania sekwencji danych w aplikacjach takich jak rozpoznawanie pisma odręcznego, tłumaczenie maszynowe i podpisywanie obrazów. Rozwiązywanie problemów z LSTM rozwiązuje problem z gradientem znikającym, który pojawia się podczas trenowania RNN z powodu długich sekwencji danych przez przechowywanie historii w wewnętrznej pamięci na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek RNN.
LPTM,
Skrót od Llong krótkoterminowej pamięci.
N
N-gram
Uporządkowana sekwencja N słów. Na przykład prawdziwie szalony to dwa gramy. Ze względu na to, że kolejność jest istotna, prawdziwieto zupełnie inny 2gram niż naprawdę szalony.
N | Nazwy tego typu N-gramów | Przykłady |
---|---|---|
2 | bigram lub 2 gramy | jeść, pójść, zjeść obiad, |
3 | trygram lub 3 gramy | Tętno je ma, 3 niewidoczne myszki |
4 | 4 gramy | idziesz po parku, kurz na wietrze, chłopiec je soczewicę |
Wiele modeli rozumienia języka naturalnego polega na przewidywaniu następnego słowa, które użytkownik może wpisać lub powiedzieć, za pomocą N-gramów. Załóżmy na przykład, że użytkownik wpisał tekst 3 rolety. Model NLU oparty na trygramach przewidywałby prawdopodobnie, że użytkownik ponownie wpisze myszy.
kontrastuje N-gramów z torbą słów, które są nieuporządkowanymi zestawami słów;
R
sieć neuronowa
Sieć neuronowa, która celowo jest uruchamiana wiele razy, gdzie część każdego uruchomienia jest dostarczana do kolejnego uruchomienia. Ukryte warstwy z poprzedniego uruchomienia są źródłem danych wejściowych tej samej ukrytej warstwy w kolejnym uruchomieniu. Powtarzające się sieci neuronowe są szczególnie przydatne do oceny sekwencji, aby ukryte warstwy mogły uczyć się na podstawie poprzednich uruchomień sieci neuronowej we wcześniejszych częściach sekwencji.
Poniższy przykład pokazuje ciągłą sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości uzyskane w ukrytych warstwach z pierwszego uruchomienia stają się częścią danych wejściowych dla tych samych ukrytych warstw podczas drugiego uruchomienia. Podobnie wartości uzyskane w ukrytej warstwie podczas drugiego uruchomienia staje się częścią danych wejściowych dla tej samej ukrytej warstwy w trzecim uruchomieniu. Dzięki temu sieć neuronowa trenuje się stopniowo i przewiduje znaczenie całej sekwencji, a nie tylko poszczególnych słów.
Numer RNN
Skrót od powtarzających się sieci neuronowych.
S
model sekwencji
Model, którego dane wejściowe są sekwencyjnie zależne. Na przykład do prognozowania następnego filmu na podstawie sekwencji obejrzanych wcześniej filmów.
T
krok
Jedna „nieprzetworzona” komórka w powtarzającej się sieci neuronowej. Poniższy rysunek pokazuje 3 kroki (oznaczone indeksami t-1, t, i t+1):
trygram
N-gram, w którym N=3.
V
znikający gradient
Tendencja gradientów wczesnych ukrytych warstw niektórych głębokich sieci neuronowych staje się zaskakująco płaska (niska). Coraz mniej niskie gradienty powodują coraz mniejsze zmiany w węzłach w głębokich sieciach neuronowych, co prowadzi do niewielkiej lub braku uczenia się. Modele zmagające się z zanikającym problemem gradientu stają się trudne lub niemożliwe do wytrenowania. Tego typu problemy można znaleźć w pamięci krótkotrwałej.
Porównaj z problemem z gradientem wybuchowym.