Słowniczek z systemami uczącymi się: modele sekwencji

Ta strona zawiera terminy w glosariuszu modeli sekwencji. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.

B

bigram

#seq
#language

N-gram, w którym N=2.

E

problem z wybuchającym gradientem

#seq

Tendencja gradientów w głębokich sieciach neuronowych (zwłaszcza w powracających sieciach neuronowych) do zaskakująco wysokich (wysokich). Stromy gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.

Trenowanie modeli, na których występuje problem eksplodującego gradientu, staje się trudne lub niemożliwe. Przycinanie gradientu może rozwiązać ten problem.

Porównaj z problemem znikającym gradientem.

F

Zapomnij bramkę

#seq

Część komórki pamięci długoterminowej, która reguluje przepływ informacji przez komórkę. Zapomnij o bramkach zachowuje kontekst, decydując, które informacje odrzucić ze stanu komórki.

G

przycinanie gradientu

#seq

Powszechnie stosowany mechanizm łagodzenia problemu z eksploatacyjnym gradientem przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas korzystania z początku gradientu w celu trenowania modelu.

L

Pamięć krótkoterminowa (LSTM)

#seq

Rodzaj komórki w powracającej sieci neuronowej, który służy do przetwarzania sekwencji danych w aplikacjach takich jak rozpoznawanie pisma odręcznego, tłumaczenie maszynowe i tworzenie napisów do obrazów. Systemy LSTM rozwiązują problem znikającego gradientu, który występuje podczas trenowania RNN z powodu długich sekwencji danych, utrzymując historię w stanie pamięci wewnętrznej na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek w RNN.

LSTM

#seq

Skrót od pamięci długoterminowej.

N

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład słowo prawdziwe szaleństwo ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, ale tak naprawdę to dwa gramy, które różnią się od prawdziwości szalonej.

N Nazwy dla tego rodzaju N-gramów Przykłady
2 bigram, czyli 2 gramy iść, jechać, zjeść obiad, zjeść kolację
3 trygram lub 3 gramy zdało się za dużo, trzy niewidome myszki, dzwonki i dzwonki
4 4 gramy spacerować w parku, pył na wietrze, chłopiec zjadł soczewicę

Wiele modeli rozumienia języka naturalnego opiera się na N-gramach do przewidywania następnego słowa, które użytkownik wpisze lub powie. Załóżmy np., że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidzi, że użytkownik następnym razem wpisze myszy.

Porównaj N gramów z torbą słów, czyli nieuporządkowanymi zestawami słów.

R

cykliczna sieć neuronowa

#seq

Sieć neuronowa, która jest celowo uruchomiona kilka razy, w ramach której fragmenty każdego uruchomienia są przetwarzane w kolejnym uruchomieniu. W szczególności warstwy ukryte z poprzedniego uruchomienia udostępniają część danych wejściowych do tej samej ukrytej warstwy w kolejnym uruchomieniu. Powtórne sieci neuronowe są szczególnie przydatne do oceny sekwencji, ponieważ ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej na wcześniejszych częściach sekwencji.

Na przykład ten rysunek przedstawia cykliczną sieć neuronową, która jest uruchamiana 4 razy. Zwróć uwagę, że wartości zapamiętane przez ukryte warstwy z pierwszego uruchomienia stają się częścią danych wejściowych tych samych ukrytych warstw w drugim uruchomieniu. Wartości zapamiętane w warstwie ukrytej przy drugim uruchomieniu stają się częścią danych wejściowych tej samej ukrytej warstwy w trzecim uruchomieniu. W ten sposób cykliczna sieć neuronowa stopniowo uczy się i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.

Numer RNN, który uruchamia się 4 razy, aby przetworzyć 4 słowa wejściowe.

Numer RNN

#seq

Skrót od wyrażenia recurrent neural Networks (cykliczne sieci neuronowe).

S

model sekwencyjny

#seq

Model, którego dane wejściowe są zależność sekwencyjną. Dotyczy to na przykład prognozowania następnego filmu, który zostanie obejrzany, na podstawie sekwencji obejrzanych wcześniej filmów.

T

krok po kroku

#seq

1 „nieprzewinięta” komórka w powracającej sieci neuronowej. Na przykład na rysunku poniżej widać 3 kroki czasu (oznaczone indeksami dolnymi t-1, t i t+1):

3 kroki czasowe w nawracającej sieci neuronowej. Dane wyjściowe pierwszego kroku czasowego są danymi wejściowymi dla drugiego kroku czasowego. Dane wyjściowe drugiego kroku czasu stają się danymi wejściowymi dla trzeciego kroku w czasie.

trygram

#seq
#language

N-gram, w którym N=3.

V

zadanie znikającego gradientu

#seq

Tendencje gradientów wczesnych ukrytych warstw w niektórych głębokich sieciach neuronowych staje się zaskakująco płaskie (niskie). Coraz niższy poziom gradientów oznacza coraz mniejsze zmiany wagi węzłów w głębokiej sieci neuronowej, co prowadzi do słabszego uczenia się lub jego braku. Trenowanie modeli cierpiących na problem znikającego gradientu staje się trudne lub niemożliwe. Komórki pamięci długoterminowej rozwiązują ten problem.

Porównaj z problemem z eksplozującym gradientem.