Ta strona zawiera definicje terminów z glosariusza Sequence Models. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.
B
bigram
N-gram, w którym N=2.
E
problem eksplodującego gradientu
Gradienty w głębokich sieciach neuronowych (zwłaszcza w sieciach neuronowych z powrotnymi połączeniami) stają się zaskakująco strome (duże). Strome gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.
Modele, które mają problem z wybuchem gradientu, stają się trudne lub niemożliwe do wytrenowania. Odcięcie gradientu może rozwiązać ten problem.
Porównaj z problemem zanikania gradientu.
F
forget gate
Część komórki długotrwałej pamięci krótkotrwałej, która reguluje przepływ informacji przez komórkę. Bramki zapominania zachowują kontekst, określając, które informacje z stanu komórki mają zostać odrzucone.
G
przycinanie gradientu
Często stosowany mechanizm ograniczający problem wybuchowego gradientu przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas stosowania metody gradientu prostego do treningu modelu.
L
Długa pamięć krótkotrwała (LSTM)
Typ komórki w powtarzającej się sieci neuronowej, która służy do przetwarzania sekwencji danych w aplikacji, np. do rozpoznawania pisma odręcznego, tłumaczenia maszynowego i dodawania podpisów do obrazów. Sieci LSTM rozwiązują problem zanikania gradientu, który występuje podczas trenowania sieci RNN z powodu długich sekwencji danych. Rozwiązanie to polega na przechowywaniu historii w wewnętrznym stanie pamięci na podstawie nowych danych i kontekstu z poprzednich komórek sieci RNN.
LSTM
Skrót od długiej pamięci krótkotrwałej.
N
N-gram
Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.
N | Nazwy tego typu N-gramów | Przykłady |
---|---|---|
2 | bigram lub 2-gram | go, go to, eat lunch, eat dinner |
3 | trigram lub 3-gram | ate too much, three blind mice, the bell tolls |
4 | 4-gram | walk in the park, dust in the wind, the boy ate lentils |
Wiele modeli rozumiejących język naturalny korzysta z modeli N-gramów, aby przewidywać kolejne słowo, które użytkownik wpisze lub powie. Załóżmy na przykład, że użytkownik wpisał three blind. Model NLU oparty na trygramach najprawdopodobniej przewiduje, że użytkownik wpisze mice.
Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.
R
rekurencyjna sieć neuronowa
Sieci neuronowej, która jest celowo uruchamiana wielokrotnie, a części każdego uruchomienia są przekazywane do następnego. W szczególności warstwy ukryte z poprzedniego przebiegu dostarczają części danych wejściowych do tej samej warstwy ukrytej w następnym przebiegu. Sieci neuronowe rekurencyjne są szczególnie przydatne do oceny sekwencji, ponieważ ich ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej w przypadku wcześniejszych części sekwencji.
Na przykład na rysunku poniżej widać rekurencyjną sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości wyuczone w pierwszym przebiegu w warstwach ukrytych stają się częścią danych wejściowych tych samych warstw ukrytych w drugim przebiegu. Podobnie wartości wyuczone w drugim przebiegu przez ukrytą warstwę staną się częścią danych wejściowych dla tej samej warstwy ukrytej w trzecim przebiegu. W ten sposób rekurencyjna sieć neuronowa stopniowo trenuje i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.
RNN
Skrót od sieci neuronowych o powtarzającej się strukturze.
S
model sekwencyjny
Model, którego dane wejściowe mają zależność sekwencyjną. Na przykład przewidywanie następnego filmu na podstawie sekwencji wcześniej obejrzanych filmów.
T
interwał czasowy
Jedna „rozwinięta” komórka w sieci neuronowej z pamięcią rekurencyjną. Na przykład na rysunku poniżej widać 3 momenty w czasie (oznaczone indeksami t-1, t i t+1):
trygram
N-gram, w którym N=3.
V
problem znikającego gradientu
W przypadku niektórych głębokich sieci neuronowych gradienty na pierwszych ukrytych warstwach są zaskakująco płaskie (mają małe wartości). Coraz mniejsze gradienty powodują coraz mniejsze zmiany wag w węzłach głębokiej sieci neuronowej, co prowadzi do niewielkiego lub żadnego uczenia się. Modele, które mają problem z znikającym gradientem, stają się trudne lub niemożliwe do wytrenowania. Długa pamięć krótkotrwała rozwiązuje ten problem.
Porównaj z problemem eksplodującego gradientu.