Słowniczek z systemami uczącymi się: modele sekwencji

Ta strona zawiera definicje terminów z glosariusza Sequence Models. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

B

bigram

#seq
#language

N-gram, w którym N=2.

E

problem eksplodującego gradientu

#seq

głębokich sieciach neuronowych (zwłaszcza sieciach neuronowych z powrotami) gradienty stają się zaskakująco strome (duże). Strome gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.

Modele, które mają problem z wybuchem gradientu, stają się trudne lub niemożliwe do wytrenowania. Odcięcie gradientu może rozwiązać ten problem.

Porównaj z problemem zanikania gradientu.

F

forget gate

#seq

Część komórki długotrwałej pamięci krótkotrwałej, która reguluje przepływ informacji przez komórkę. Bramki zapominania zachowują kontekst, określając, które informacje mają zostać odrzucone ze stanu komórki.

G

przycinanie gradientu

#seq

Często stosowany mechanizm ograniczający problem wybuchowego gradientu poprzez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas stosowania metody gradientu prostego do treningu modelu.

L

Długa pamięć krótkotrwała (LSTM)

#seq

Typ komórki w powtarzającej się sieci neuronowej, która służy do przetwarzania sekwencji danych w aplikacji, np. do rozpoznawania pisma odręcznego, tłumaczenia maszynowego i dodawania podpisów do obrazów. Sieci LSTM rozwiązują problem zanikania gradientu, który występuje podczas trenowania sieci RNN z powodu długich sekwencji danych. Sieci te utrzymują historię w wewnętrznym stanie pamięci na podstawie nowych danych i kontekstu z poprzednich komórek w sieci RNN.

LSTM

#seq

Skrót od długiej pamięci krótkotrwałej.

N

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.

N Nazwa(y) tego typu N-gramu Przykłady
2 bigram lub 2-gram go, go to, eat lunch, eat dinner
3 trigram lub 3-gram ate too much, happily ever after, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Wiele modeli rozumiejących język naturalny korzysta z modeli N-gramów, aby przewidywać kolejne słowo, które użytkownik wpisze lub powie. Załóżmy na przykład, że użytkownik wpisał happily ever. Model NLU oparty na trigramach najprawdopodobniej przewidzi, że użytkownik wpisze następne słowo after.

Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.

Więcej informacji znajdziesz w sekcji Duże modele językowe w Szybkim szkoleniu z uczenia maszynowego.

R

rekurencyjna sieć neuronowa

#seq

Sieci neuronowej, która jest celowo uruchamiana wielokrotnie, a części każdego uruchomienia są przekazywane do następnego. Dokładnie mówiąc, warstwy ukryte z poprzedniego uruchomienia dostarczają części danych wejściowych do tej samej warstwy ukrytej w następnym uruchomieniu. Sieci neuronowe rekurencyjne są szczególnie przydatne do oceny sekwencji, ponieważ ich ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej na wcześniejszych częściach sekwencji.

Na przykład na rysunku poniżej widać rekurencyjną sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości wyuczone w pierwszym przebiegu w warstwach ukrytych stają się częścią danych wejściowych tych samych warstw ukrytych w drugim przebiegu. Podobnie wartości wyuczone w drugim przebiegu przez ukrytą warstwę staną się częścią danych wejściowych dla tej samej warstwy ukrytej w trzecim przebiegu. W ten sposób rekurencyjna sieć neuronowa stopniowo trenuje i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.

Sieć RNN, która działa 4 razy, aby przetworzyć 4 słowa wejściowe.

RNN

#seq

Skrót od sieci neuronowych o powtarzających się pętlach.

S

model sekwencyjny

#seq

Model, którego dane wejściowe mają zależność sekwencyjną. Na przykład przewidywanie następnego filmu na podstawie sekwencji wcześniej obejrzanych filmów.

T

interwał czasowy

#seq

Jedna „rozwinięta” komórka w sieci neuronowej z pamięcią rekurencyjną. Na przykład na rysunku poniżej widać 3 momenty w czasie (oznaczone indeksami t-1, t i t+1):

Trzy kroki czasowe w powtarzalnej sieci neuronowej. Dane wyjściowe pierwszego interwału czasowego stają się danymi wejściowymi drugiego interwału czasowego. Dane wyjściowe drugiego kroku czasowego stają się wejściem dla trzeciego kroku czasowego.

trygram

#seq
#language

N-gram, w którym N=3.

V

problem znikającego gradientu

#seq

W przypadku niektórych głębokich sieci neuronowych gradienty na pierwszych ukrytych warstwach są zaskakująco płaskie (mają małe wartości). Coraz mniejsze gradienty powodują coraz mniejsze zmiany wag w węzłach głębokiej sieci neuronowej, co prowadzi do niewielkiego lub żadnego uczenia się. Modele, które mają problem z znikającym gradientem, stają się trudne lub niemożliwe do wytrenowania. Długa pamięć krótkotrwała rozwiązuje ten problem.

Porównaj z problemem eksplodującego gradientu.