Słowniczek z systemami uczącymi się: modele sekwencji

Ta strona zawiera definicje terminów z glosariusza Sequence Models. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

B

bigram

#seq
#language

N-gram, w którym N=2.

E

problem eksplodującego gradientu

#seq

Gradientygłębokich sieciach neuronowych (zwłaszcza w sieciach neuronowych z powrotnymi połączeniami) stają się zaskakująco strome (duże). Strome gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.

Modele, które mają problem z wybuchem gradientu, stają się trudne lub niemożliwe do wytrenowania. Odcięcie gradientu może rozwiązać ten problem.

Porównaj z problemem zanikania gradientu.

F

forget gate

#seq

Część komórki długotrwałej pamięci krótkotrwałej, która reguluje przepływ informacji przez komórkę. Bramki zapominania zachowują kontekst, określając, które informacje z stanu komórki mają zostać odrzucone.

G

przycinanie gradientu

#seq

Często stosowany mechanizm ograniczający problem wybuchowego gradientu przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas stosowania metody gradientu prostego do treningu modelu.

L

Długa pamięć krótkotrwała (LSTM)

#seq

Typ komórki w powtarzającej się sieci neuronowej, która służy do przetwarzania sekwencji danych w aplikacji, np. do rozpoznawania pisma odręcznego, tłumaczenia maszynowego i dodawania podpisów do obrazów. Sieci LSTM rozwiązują problem zanikania gradientu, który występuje podczas trenowania sieci RNN z powodu długich sekwencji danych. Rozwiązanie to polega na przechowywaniu historii w wewnętrznym stanie pamięci na podstawie nowych danych i kontekstu z poprzednich komórek sieci RNN.

LSTM

#seq

Skrót od długiej pamięci krótkotrwałej.

N

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.

N Nazwy tego typu N-gramów Przykłady
2 bigram lub 2-gram go, go to, eat lunch, eat dinner
3 trigram lub 3-gram ate too much, three blind mice, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Wiele modeli rozumiejących język naturalny korzysta z modeli N-gramów, aby przewidywać kolejne słowo, które użytkownik wpisze lub powie. Załóżmy na przykład, że użytkownik wpisał three blind. Model NLU oparty na trygramach najprawdopodobniej przewiduje, że użytkownik wpisze mice.

Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.

R

rekurencyjna sieć neuronowa

#seq

Sieci neuronowej, która jest celowo uruchamiana wielokrotnie, a części każdego uruchomienia są przekazywane do następnego. W szczególności warstwy ukryte z poprzedniego przebiegu dostarczają części danych wejściowych do tej samej warstwy ukrytej w następnym przebiegu. Sieci neuronowe rekurencyjne są szczególnie przydatne do oceny sekwencji, ponieważ ich ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej w przypadku wcześniejszych części sekwencji.

Na przykład na rysunku poniżej widać rekurencyjną sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości wyuczone w pierwszym przebiegu w warstwach ukrytych stają się częścią danych wejściowych tych samych warstw ukrytych w drugim przebiegu. Podobnie wartości wyuczone w drugim przebiegu przez ukrytą warstwę staną się częścią danych wejściowych dla tej samej warstwy ukrytej w trzecim przebiegu. W ten sposób rekurencyjna sieć neuronowa stopniowo trenuje i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.

Sieć RNN, która działa 4 razy, aby przetworzyć 4 słowa wejściowe.

RNN

#seq

Skrót od sieci neuronowych o powtarzającej się strukturze.

S

model sekwencyjny

#seq

Model, którego dane wejściowe mają zależność sekwencyjną. Na przykład przewidywanie następnego filmu na podstawie sekwencji wcześniej obejrzanych filmów.

T

interwał czasowy

#seq

Jedna „rozwinięta” komórka w sieci neuronowej z pamięcią rekurencyjną. Na przykład na rysunku poniżej widać 3 momenty w czasie (oznaczone indeksami t-1, t i t+1):

Trzy kroki czasowe w powtarzalnej sieci neuronowej. Dane wyjściowe pierwszego interwału czasowego stają się danymi wejściowymi drugiego interwału czasowego. Dane wyjściowe drugiego kroku czasowego stają się wejściem dla trzeciego kroku czasowego.

trygram

#seq
#language

N-gram, w którym N=3.

V

problem znikającego gradientu

#seq

W przypadku niektórych głębokich sieci neuronowych gradienty na pierwszych ukrytych warstwach są zaskakująco płaskie (mają małe wartości). Coraz mniejsze gradienty powodują coraz mniejsze zmiany wag w węzłach głębokiej sieci neuronowej, co prowadzi do niewielkiego lub żadnego uczenia się. Modele, które mają problem z znikającym gradientem, stają się trudne lub niemożliwe do wytrenowania. Długa pamięć krótkotrwała rozwiązuje ten problem.

Porównaj z problemem eksplodującego gradientu.