Glosariusz systemów uczących się: modele sekwencji

Ta strona zawiera terminy glosariusza występujące w modelu sekwencji. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.

B

Bigram

#seq
#language

N-gram, w którym N=2.

1

problem z eksplodowanym gradientem

#seq

Tendencja gradientów w głębokich sieciach neuronowych (zwłaszcza powtórnych sieci neuronowych) do zaskakująco wysokich (wysokich). Strome gradienty często powodują dużą aktualizację wagkażdego węzła węzłaneurual.

Modele z wykorzystaniem eksplodującego gradientu stają się trudne lub nie można ich wytrenować. Przycinanie gradientów może ograniczyć ten problem.

Porównaj z problemem z wycofaniem gradientu.

Pt

Zapomnij bramę

#seq

Część długotrwałej pamięci krótkoterminowej, która reguluje przepływ informacji przez komórkę. Zapomnij o bramach, określając kontekst, wybierając informacje do usunięcia ze stanu komórki.

G

przycinanie gradientu

#seq

Powszechnie stosowany mechanizm minimalizujący problemy z gradientem polegające na sztucznym ograniczaniu (czyli przycinaniu) maksymalnej wartości gradientów podczas trenowania modelu.

L

Pamięć krótkoterminowa (LSTM)

#seq

Rodzaj komórki w powtarzającej się sieci neuronowej używanej do przetwarzania sekwencji danych w aplikacjach takich jak rozpoznawanie pisma odręcznego, tłumaczenie maszynowe i podpisywanie obrazów. Rozwiązywanie problemów z LSTM rozwiązuje problem z gradientem znikającym, który pojawia się podczas trenowania RNN z powodu długich sekwencji danych przez przechowywanie historii w wewnętrznej pamięci na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek RNN.

LPTM,

#seq

Skrót od Llong krótkoterminowej pamięci.

N

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład prawdziwie szalony to dwa gramy. Ze względu na to, że kolejność jest istotna, prawdziwieto zupełnie inny 2gram niż naprawdę szalony.

N Nazwy tego typu N-gramów Przykłady
2 bigram lub 2 gramy jeść, pójść, zjeść obiad,
3 trygram lub 3 gramy Tętno je ma, 3 niewidoczne myszki
4 4 gramy idziesz po parku, kurz na wietrze, chłopiec je soczewicę

Wiele modeli rozumienia języka naturalnego polega na przewidywaniu następnego słowa, które użytkownik może wpisać lub powiedzieć, za pomocą N-gramów. Załóżmy na przykład, że użytkownik wpisał tekst 3 rolety. Model NLU oparty na trygramach przewidywałby prawdopodobnie, że użytkownik ponownie wpisze myszy.

kontrastuje N-gramów z torbą słów, które są nieuporządkowanymi zestawami słów;

R

sieć neuronowa

#seq

Sieć neuronowa, która celowo jest uruchamiana wiele razy, gdzie część każdego uruchomienia jest dostarczana do kolejnego uruchomienia. Ukryte warstwy z poprzedniego uruchomienia są źródłem danych wejściowych tej samej ukrytej warstwy w kolejnym uruchomieniu. Powtarzające się sieci neuronowe są szczególnie przydatne do oceny sekwencji, aby ukryte warstwy mogły uczyć się na podstawie poprzednich uruchomień sieci neuronowej we wcześniejszych częściach sekwencji.

Poniższy przykład pokazuje ciągłą sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości uzyskane w ukrytych warstwach z pierwszego uruchomienia stają się częścią danych wejściowych dla tych samych ukrytych warstw podczas drugiego uruchomienia. Podobnie wartości uzyskane w ukrytej warstwie podczas drugiego uruchomienia staje się częścią danych wejściowych dla tej samej ukrytej warstwy w trzecim uruchomieniu. Dzięki temu sieć neuronowa trenuje się stopniowo i przewiduje znaczenie całej sekwencji, a nie tylko poszczególnych słów.

numer RNN, który przetwarza cztery razy dane wejściowe.

Numer RNN

#seq

Skrót od powtarzających się sieci neuronowych.

S

model sekwencji

#seq

Model, którego dane wejściowe są sekwencyjnie zależne. Na przykład do prognozowania następnego filmu na podstawie sekwencji obejrzanych wcześniej filmów.

T

krok

#seq

Jedna „nieprzetworzona” komórka w powtarzającej się sieci neuronowej. Poniższy rysunek pokazuje 3 kroki (oznaczone indeksami t-1, t, i t+1):

Trzy kroki w cyklowej sieci neuronowej. Dane wyjściowe pierwszego kroku pojawią się w drugim. Dane wyjściowe drugiego etapu pojawią się w trzecim kroku.

trygram

#seq
#language

N-gram, w którym N=3.

V

znikający gradient

#seq

Tendencja gradientów wczesnych ukrytych warstw niektórych głębokich sieci neuronowych staje się zaskakująco płaska (niska). Coraz mniej niskie gradienty powodują coraz mniejsze zmiany w węzłach w głębokich sieciach neuronowych, co prowadzi do niewielkiej lub braku uczenia się. Modele zmagające się z zanikającym problemem gradientu stają się trudne lub niemożliwe do wytrenowania. Tego typu problemy można znaleźć w pamięci krótkotrwałej.

Porównaj z problemem z gradientem wybuchowym.