Ta strona zawiera terminy w glosariuszu modeli sekwencji. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.
B
bigram
N-gram, w którym N=2.
E
problem z wybuchającym gradientem
Tendencja gradientów w głębokich sieciach neuronowych (zwłaszcza w powracających sieciach neuronowych) do zaskakująco wysokich (wysokich). Stromy gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.
Trenowanie modeli, na których występuje problem eksplodującego gradientu, staje się trudne lub niemożliwe. Przycinanie gradientu może rozwiązać ten problem.
Porównaj z problemem znikającym gradientem.
F
Zapomnij bramkę
Część komórki pamięci długoterminowej, która reguluje przepływ informacji przez komórkę. Zapomnij o bramkach zachowuje kontekst, decydując, które informacje odrzucić ze stanu komórki.
G
przycinanie gradientu
Powszechnie stosowany mechanizm łagodzenia problemu z eksploatacyjnym gradientem przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas korzystania z początku gradientu w celu trenowania modelu.
L
Pamięć krótkoterminowa (LSTM)
Rodzaj komórki w powracającej sieci neuronowej, który służy do przetwarzania sekwencji danych w aplikacjach takich jak rozpoznawanie pisma odręcznego, tłumaczenie maszynowe i tworzenie napisów do obrazów. Systemy LSTM rozwiązują problem znikającego gradientu, który występuje podczas trenowania RNN z powodu długich sekwencji danych, utrzymując historię w stanie pamięci wewnętrznej na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek w RNN.
LSTM
Skrót od pamięci długoterminowej.
N
N-gram
Uporządkowana sekwencja N słów. Na przykład słowo prawdziwe szaleństwo ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, ale tak naprawdę to dwa gramy, które różnią się od prawdziwości szalonej.
N | Nazwy dla tego rodzaju N-gramów | Przykłady |
---|---|---|
2 | bigram, czyli 2 gramy | iść, jechać, zjeść obiad, zjeść kolację |
3 | trygram lub 3 gramy | zdało się za dużo, trzy niewidome myszki, dzwonki i dzwonki |
4 | 4 gramy | spacerować w parku, pył na wietrze, chłopiec zjadł soczewicę |
Wiele modeli rozumienia języka naturalnego opiera się na N-gramach do przewidywania następnego słowa, które użytkownik wpisze lub powie. Załóżmy np., że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidzi, że użytkownik następnym razem wpisze myszy.
Porównaj N gramów z torbą słów, czyli nieuporządkowanymi zestawami słów.
R
cykliczna sieć neuronowa
Sieć neuronowa, która jest celowo uruchomiona kilka razy, w ramach której fragmenty każdego uruchomienia są przetwarzane w kolejnym uruchomieniu. W szczególności warstwy ukryte z poprzedniego uruchomienia udostępniają część danych wejściowych do tej samej ukrytej warstwy w kolejnym uruchomieniu. Powtórne sieci neuronowe są szczególnie przydatne do oceny sekwencji, ponieważ ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej na wcześniejszych częściach sekwencji.
Na przykład ten rysunek przedstawia cykliczną sieć neuronową, która jest uruchamiana 4 razy. Zwróć uwagę, że wartości zapamiętane przez ukryte warstwy z pierwszego uruchomienia stają się częścią danych wejściowych tych samych ukrytych warstw w drugim uruchomieniu. Wartości zapamiętane w warstwie ukrytej przy drugim uruchomieniu stają się częścią danych wejściowych tej samej ukrytej warstwy w trzecim uruchomieniu. W ten sposób cykliczna sieć neuronowa stopniowo uczy się i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.
Numer RNN
Skrót od wyrażenia recurrent neural Networks (cykliczne sieci neuronowe).
S
model sekwencyjny
Model, którego dane wejściowe są zależność sekwencyjną. Dotyczy to na przykład prognozowania następnego filmu, który zostanie obejrzany, na podstawie sekwencji obejrzanych wcześniej filmów.
T
krok po kroku
1 „nieprzewinięta” komórka w powracającej sieci neuronowej. Na przykład na rysunku poniżej widać 3 kroki czasu (oznaczone indeksami dolnymi t-1, t i t+1):
trygram
N-gram, w którym N=3.
V
zadanie znikającego gradientu
Tendencje gradientów wczesnych ukrytych warstw w niektórych głębokich sieciach neuronowych staje się zaskakująco płaskie (niskie). Coraz niższy poziom gradientów oznacza coraz mniejsze zmiany wagi węzłów w głębokiej sieci neuronowej, co prowadzi do słabszego uczenia się lub jego braku. Trenowanie modeli cierpiących na problem znikającego gradientu staje się trudne lub niemożliwe. Komórki pamięci długoterminowej rozwiązują ten problem.
Porównaj z problemem z eksplozującym gradientem.