Glossar für maschinelles Lernen: Sequenzmodelle

Diese Seite enthält Glossarbegriffe zu Sequenzmodellen. Alle Glossarbegriffe finden Sie hier.

B

Bigram

#seq
#language

Ein N-Gramm, in dem N=2 ist.

E

Problem mit explodierendem Farbverlauf

#seq

Die Tendenz von Verläufen in neuronalen Deep-Learning-Netzwerken (insbesondere in recurrent neuronalen Netzen) zu erstaunlich steil (hoch). Steile Gradienten führen häufig zu sehr großen Aktualisierungen der Gewichtungen jedes Knotens in einem neuronalen Deep-Learning-Netzwerk.

Modelle, die unter dem Problem mit dem explodierenden Gradienten leiden, lassen sich nur schwer oder gar nicht trainieren. Das Clipping mit Farbverlauf kann dieses Problem beheben.

Vergleichen Sie das mit dem Problem mit einem verschwindenden Farbverlauf.

F

Vergiss Gate

#seq

Der Teil einer Zelle eines Langzeitspeichers, der den Informationsfluss durch die Zelle reguliert. Vergessen-Gatter bewahren den Kontext auf, indem entschieden wird, welche Informationen aus dem Zellenstatus verworfen werden sollen.

G

Farbverlaufs-Clipping

#seq

Ein häufig verwendeter Mechanismus zur Minderung des explodierenden Gradientenproblems durch die künstliche Begrenzung (Einschränkung) des Maximalwerts von Gradienten, wenn das Gradientenabstieg zum Trainieren eines Modells verwendet wird.

L

Long-Term Memory (LSTM)

#seq

Ein Zellentyp in einem recurrent neuronalen Netzwerk, der zur Verarbeitung von Datensequenzen in Anwendungen wie Handschrifterkennung, maschinelle Übersetzung und Bilduntertitelung verwendet wird. LSTMs befassen sich mit dem Verschwinden des Gradientenproblems, das beim Trainieren von RNNs aufgrund langer Datensequenzen auftritt. Dazu wird der Verlauf in einem internen Speicherzustand basierend auf neuer Eingabe und Kontext von vorherigen Zellen im RNN beibehalten.

LSTM

#seq

Abkürzung für Long-Short-Term Memory

N

N-Gramm

#seq
#language

Eine geordnete Folge von n Wörtern. Zum Beispiel ist truly madly ein 2-Gramm. Da Reihenfolge relevant ist, ist madly Real ein anderes 2-Gramm als wirklich verrückt.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm essen gehen, besuchen, zu Mittag essen, zu Abend essen
3 Trigram oder 3-Gramm zu viel gegessen, drei blinde Mäuse, der Glockenton
4 4 Gramm im Park spazieren gehen, im Wind staunen, der Junge aß Linsen

Viele Modelle für Natural Language Understanding beruhen auf N-Grammen, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Angenommen, ein Nutzer hat Three blind eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eintippen wird.

Stellen Sie N-Gramme mit Bag of Words (Bag of Words) gegenüber, bei denen es sich um ungeordnete Wortgruppen handelt.

R

neuronales Recurrent-Netzwerk

#seq

Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird und bei dem Teile jeder Ausführung in die nächste Ausführung einfließen. Insbesondere liefern ausgeblendete Ebenen aus der vorherigen Ausführung bei der nächsten Ausführung einen Teil der Eingabe für dieselbe verborgene Ebene. Recurrent neuronale Netzwerke sind besonders nützlich für die Auswertung von Sequenzen, damit die verborgenen Schichten aus früheren Durchläufen des neuronalen Netzwerks in früheren Teilen der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein neuronales Recurrent-Netzwerk, das viermal ausgeführt wird. Beachten Sie, dass die Werte, die aus dem ersten Durchlauf in den ausgeblendeten Ebenen erkannt wurden, im zweiten Durchlauf Teil der Eingabe für dieselben versteckten Ebenen werden. In ähnlicher Weise werden die Werte, die beim zweiten Durchlauf in der ausgeblendeten Ebene erkannt wurden, im dritten Durchlauf Teil der Eingabe in diese versteckte Ebene. Auf diese Weise trainiert und prognostiziert das recurrent neuronale Netzwerk nach und nach die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung einzelner Wörter.

RNN, die viermal ausgeführt werden, um vier Eingabewörter zu verarbeiten.

Logo: RNN

#seq

Abkürzung für recurrent neural Networks.

S

Sequenzmodell

#seq

Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit haben. Zum Beispiel die Vorhersage des nächsten angesehenen Videos aus einer Abfolge zuvor angesehener Videos.

T

Timestep

#seq

Eine „nicht gerollte“ Zelle in einem recurrent neuronalen Netzwerk. Die folgende Abbildung zeigt beispielsweise drei Zeitschritte, die mit den Subskripten t-1, t und t+1 gekennzeichnet sind:

Drei Zeitschritte in einem neuronalen Recurrent-Netzwerk. Die Ausgabe des ersten Zeitschritts wird zur Eingabe für den zweiten Zeitschritt. Die Ausgabe des zweiten Zeitschritts wird zur Eingabe für den dritten Zeitschritt.

Trigram

#seq
#language

Ein N-Gramm, in dem N=3 ist.

V

Problem mit verschwindendem Farbverlauf

#seq

Die Tendenz, dass die Gradienten früher verborgener Ebenen einiger neuronaler Deep-Learning-Netzwerke erstaunlich flach (niedrig) werden. Zunehmende niedrigere Gradienten führen zu zunehmend kleineren Änderungen an den Gewichtungen von Knoten in einem neuronalen Deep-Learning-Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die unter dem abnehmenden Gradientenproblem leiden, lassen sich nur schwer oder gar nicht trainieren. Dieses Problem wird durch Zellen vom Typ Long-Term Memory behoben.

Vergleichen Sie dazu das Problem mit einem explodierenden Farbverlauf.