Glossar für maschinelles Lernen: Sequenzmodelle

Diese Seite enthält Glossarbegriffe zu Sequenzmodellen. Hier finden Sie alle Begriffe aus dem Glossar.

B

Bigram

#seq
#language

Ein N-Gramm mit N=2.

E

Problem mit explodierendem Farbverlauf

#seq

Die Tendenz von Gradienten in neuronalen Deep-Learning-Netzwerken (insbesondere in recurrent neural networks) dazu, überraschend steil (hoch) zu werden. Steile Gradienten führen oft zu sehr großen Aktualisierungen der Gewichte jedes Knotens in einem tiefen neuronalen Netzwerk.

Bei Modellen, die von diesem Problem betroffen sind, ist das Training schwierig oder unmöglich. Mit Gradient Clipping kann dieses Problem minimiert werden.

Vergleichen Sie dies mit dem Problem des verschwindenden Gradienten.

F

Tor vergessen

#seq

Der Teil einer Langzeit-Kurzzeit-Speicher-Zelle, der den Informationsfluss durch die Zelle reguliert. Vergessens-Gatter erhalten den Kontext, indem sie entscheiden, welche Informationen aus dem Zellenstatus verworfen werden sollen.

G

Kürzung von Farbverläufen

#seq

Ein häufig verwendeter Mechanismus zur Milderung des Problems des explodierenden Gradienten, bei dem der maximale Wert der Gradienten künstlich begrenzt (abgeschnitten) wird, wenn ein Modell mithilfe des Gradientenabstiegs trainiert wird.

L

Long Short-Term Memory (LSTM)

#seq

Eine Art von Zelle in einem rekurrenten neuronalen Netzwerk, die zum Verarbeiten von Datensequenzen in Anwendungen wie Handschrifterkennung, Maschinelle Übersetzung und Bildunterschriften verwendet wird. LSTMs beheben das Problem des verschwindenden Gradienten, das beim Training von RNNs aufgrund langer Datensequenzen auftritt. Dazu wird der Verlauf in einem internen Speicherstatus basierend auf neuen Eingaben und dem Kontext aus vorherigen Zellen in der RNN beibehalten.

LSTM

#seq

Abkürzung für Long Short-Term Memory (Langzeitgedächtnis).

N

N-Gramm

#seq
#language

Eine geordnete Sequenz von N Wörtern. Truly madly ist beispielsweise ein 2-Gramm. Da die Reihenfolge relevant ist, ist madly truly ein anderes 2-Gramm als truly madly.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm to go, go to, eat lunch, eat dinner
3 Trigramm oder 3-Gramm ate too much, three blind mice, the bell tolls
4 4-Gramm walk in the park, dust in the wind, the boy ate lentils

Viele Natural Language Understanding-Modelle nutzen N-Gramme, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Angenommen, ein Nutzer hat drei blind eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eingibt.

N-Gramme sind im Gegensatz zu Wortgruppen, die ungeordnete Wortgruppen sind.

R

Recurrent Neural Network (RNN)

#seq

Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird, wobei Teile jeder Ausführung in die nächste Ausführung einfließen. Insbesondere stellen versteckte Schichten aus dem vorherigen Durchlauf einen Teil der Eingabe für dieselbe versteckte Schicht im nächsten Durchlauf bereit. Recurrent Neural Networks sind besonders nützlich für die Auswertung von Sequenzen, da die verborgenen Schichten aus früheren Ausführungen des neuronalen Netzwerks in früheren Teilen der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein rekursives neuronales Netzwerk, das viermal ausgeführt wird. Die in den verborgenen Schichten aus dem ersten Durchlauf gelernten Werte werden beim zweiten Durchlauf als Eingabe für dieselben verborgenen Schichten verwendet. Ähnlich werden die in der verborgenen Schicht beim zweiten Durchlauf gelernten Werte Teil der Eingabe für dieselbe verborgene Schicht beim dritten Durchlauf. So trainiert und prognostiziert das rekursive neuronale Netzwerk nach und nach die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung einzelner Wörter.

Ein RNN, das viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

RNN

#seq

Abkürzung für recurrent neural networks (wiederkehrende neuronale Netzwerke).

S

Sequenzmodell

#seq

Ein Modell, dessen Eingaben sequenziell voneinander abhängig sind. Beispielsweise kann anhand einer Sequenz zuvor angesehener Videos das nächste Video vorhergesagt werden.

T

Zeitschritt

#seq

Eine „entwickelte“ Zelle in einem recurrent neural network. Die folgende Abbildung zeigt beispielsweise drei Zeitschritte (mit den Unterindizes t-1, t und t+1 gekennzeichnet):

Drei Zeitschritte in einem rekurrenten neuronalen Netzwerk. Die Ausgabe des ersten Zeitschritts wird als Eingabe für den zweiten Zeitschritt verwendet. Die Ausgabe des zweiten Zeitschritts wird als Eingabe für den dritten Zeitschritt verwendet.

Trigramm

#seq
#language

Ein N-Gramm mit N=3.

V

Problem mit verschwindendem Gradienten

#seq

Die Tendenz der Gradienten der frühen verborgenen Schichten einiger Deep-Learning-Netzwerke, überraschend flach (niedrig) zu werden. Immer niedrigere Gradienten führen zu immer kleineren Änderungen an den Gewichten der Knoten in einem Deep-Learning-Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die von diesem Problem betroffen sind, lassen sich nur schwer oder gar nicht trainieren. Long Short-Term Memory-Zellen lösen dieses Problem.

Vergleichen Sie dies mit dem Problem des explodierenden Gradienten.