Ta strona zawiera definicje terminów z glosariusza Sequence Models. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.
B
bigram
N-gram, w którym N=2.
E
problem eksplodującego gradientu
W głębokich sieciach neuronowych (zwłaszcza sieciach neuronowych z powrotami) gradienty stają się zaskakująco strome (duże). Strome gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.
Modele, które mają problem z wybuchem gradientu, stają się trudne lub niemożliwe do wytrenowania. Odcięcie gradientu może rozwiązać ten problem.
Porównaj z problemem zanikania gradientu.
F
forget gate
Część komórki długotrwałej pamięci krótkotrwałej, która reguluje przepływ informacji przez komórkę. Bramki zapominania zachowują kontekst, określając, które informacje mają zostać odrzucone ze stanu komórki.
G
przycinanie gradientu
Często stosowany mechanizm ograniczający problem wybuchowego gradientu poprzez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas stosowania metody gradientu prostego do treningu modelu.
L
Długa pamięć krótkotrwała (LSTM)
Typ komórki w powtarzającej się sieci neuronowej, która służy do przetwarzania sekwencji danych w aplikacji, np. do rozpoznawania pisma odręcznego, tłumaczenia maszynowego i dodawania podpisów do obrazów. Sieci LSTM rozwiązują problem zanikania gradientu, który występuje podczas trenowania sieci RNN z powodu długich sekwencji danych. Sieci te utrzymują historię w wewnętrznym stanie pamięci na podstawie nowych danych i kontekstu z poprzednich komórek w sieci RNN.
LSTM
Skrót od długiej pamięci krótkotrwałej.
N
N-gram
Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.
N | Nazwa(y) tego typu N-gramu | Przykłady |
---|---|---|
2 | bigram lub 2-gram | go, go to, eat lunch, eat dinner |
3 | trigram lub 3-gram | ate too much, happily ever after, the bell tolls |
4 | 4-gram | walk in the park, dust in the wind, the boy ate lentils |
Wiele modeli rozumiejących język naturalny korzysta z modeli N-gramów, aby przewidywać kolejne słowo, które użytkownik wpisze lub powie. Załóżmy na przykład, że użytkownik wpisał happily ever. Model NLU oparty na trigramach najprawdopodobniej przewidzi, że użytkownik wpisze następne słowo after.
Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.
Więcej informacji znajdziesz w sekcji Duże modele językowe w Szybkim szkoleniu z uczenia maszynowego.
R
rekurencyjna sieć neuronowa
Sieci neuronowej, która jest celowo uruchamiana wielokrotnie, a części każdego uruchomienia są przekazywane do następnego. Dokładnie mówiąc, warstwy ukryte z poprzedniego uruchomienia dostarczają części danych wejściowych do tej samej warstwy ukrytej w następnym uruchomieniu. Sieci neuronowe rekurencyjne są szczególnie przydatne do oceny sekwencji, ponieważ ich ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej na wcześniejszych częściach sekwencji.
Na przykład na rysunku poniżej widać rekurencyjną sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości wyuczone w pierwszym przebiegu w warstwach ukrytych stają się częścią danych wejściowych tych samych warstw ukrytych w drugim przebiegu. Podobnie wartości wyuczone w drugim przebiegu przez ukrytą warstwę staną się częścią danych wejściowych dla tej samej warstwy ukrytej w trzecim przebiegu. W ten sposób rekurencyjna sieć neuronowa stopniowo trenuje i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.
RNN
Skrót od sieci neuronowych o powtarzających się pętlach.
S
model sekwencyjny
Model, którego dane wejściowe mają zależność sekwencyjną. Na przykład przewidywanie następnego filmu na podstawie sekwencji wcześniej obejrzanych filmów.
T
interwał czasowy
Jedna „rozwinięta” komórka w sieci neuronowej z pamięcią rekurencyjną. Na przykład na rysunku poniżej widać 3 momenty w czasie (oznaczone indeksami t-1, t i t+1):
trygram
N-gram, w którym N=3.
V
problem znikającego gradientu
W przypadku niektórych głębokich sieci neuronowych gradienty na pierwszych ukrytych warstwach są zaskakująco płaskie (mają małe wartości). Coraz mniejsze gradienty powodują coraz mniejsze zmiany wag w węzłach głębokiej sieci neuronowej, co prowadzi do niewielkiego lub żadnego uczenia się. Modele, które mają problem z znikającym gradientem, stają się trudne lub niemożliwe do wytrenowania. Długa pamięć krótkotrwała rozwiązuje ten problem.
Porównaj z problemem eksplodującego gradientu.