Glossar zum maschinellen Lernen: Sequenzmodelle

Diese Seite enthält Glossarbegriffe für Sequenzmodelle. Alle Glossarbegriffe finden Sie hier.

B

Bigram

#seq
#language

Ein N-Gramm, in dem N=2 steht.

E

Problem mit explodierenden Farbverlauf

#seq

Die Neigung von Gradienten in tiefen neuronalen Netzwerken (insbesondere wiederkehrende neuronale Netzwerke), die überraschend stark ansteigen. Starke Gradienten verursachen häufig sehr große Aktualisierungen der Gewichtung der einzelnen Knoten in einem neuronalen Tiefnetzwerk.

Modelle, die unter dem explodierenden Farbverlauf leiden, sind schwieriger oder unmöglich zu trainieren. Dieses Problem lässt sich mit Farbverlaufs-Clips minimieren.

Vergleichen Sie die Formel mit dem Problem mit dem schwankenden Farbverlauf.

F

Tor entfernen

#seq

Der Teil einer Zelle im langfristigen Memory, der den Informationsfluss durch die Zelle reguliert. Gates entfernen, um zu bestimmen, welche Informationen aus dem Zellenstatus verworfen werden sollen.

G

Farbverlauf-Cliping

#seq

Ein gängiger Mechanismus, um das Problem mit dem Farbverlauf zu minimieren, indem der Höchstwert von Farbverläufen beim Verwenden des Farbverlaufsabstiegs zum Trainieren eines Modells künstlich begrenzt wird.

L

Langfristiger Arbeitsspeicher (LST, Long-Term Memory)

#seq

Ein Zelltyp in einem wiederkehrenden neuronalen Netzwerk, der zur Verarbeitung von Datensequenzen in Anwendungen wie Handschrifterkennung, maschinelle Übersetzung und Bildunterschriften verwendet wird. LSTMs lösen das Schwankungsproblem, das beim Trainieren von RNNs aufgrund langer Datensequenzen auftritt. Dazu werden der Verlauf in einem internen Arbeitsspeicherstatus anhand der neuen Eingabe und des Kontexts aus vorherigen Zellen in der RNN beibehalten.

LSTM

#seq

Abkürzung für Langzeitspeicher.

N

N-Gramm

#seq
#language

Eine geordnete Reihenfolge von N Wörtern. Zum Beispiel ist wirklich verrückt ein 2-Gramm-Objekt. Da die Reihenfolge relevant ist, ist vermutlich ein anderes 2-Gramm-Format als wirklich verrückt.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm essen gehen, essen gehen, zu essen gehen
3 Trigramm oder 3-Gramm zu viel, drei blinde Mäuse, zu viele Glocken
4 4 Gramm ein Spaziergang im Park, Staub im Wind, der Junge isst Linsen

Viele Natural Language Understanding-Modelle basieren auf N-Grammen, um das nächste Wort vorherzusagen, das der Nutzer eingibt oder sagt. Angenommen, ein Nutzer hat drei blinde Geräte eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eingibt.

Kontrastiere N-Gramme mit Bags von Wörtern, bei denen es sich um ungeordnete Wortgruppen handelt.

R

wiederkehrendes neuronales Netzwerk

#seq

Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird, wobei Teile von jeder Ausführung in die nächste Ausführung führen. Insbesondere bieten verborgene Ebenen aus der vorherigen Ausführung einen Teil der Eingabe für dieselbe ausgeblendete Ebene in der nächsten Ausführung. Wiederkehrende neuronale Netzwerke sind besonders nützlich für die Auswertung von Sequenzen, damit die verborgenen Ebenen aus vorherigen Ausführungen des neuronalen Netzwerks aus früheren Teilen der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein wiederkehrendes neuronales Netzwerk, das viermal ausgeführt wird. Die Werte, die in der ersten Ausführung in den ausgeblendeten Ebenen erlernt wurden, werden in der Eingabe in die ausgeblendeten Ebenen aufgenommen, die in der zweiten Ausführung enthalten sind. Ebenso werden die Werte, die bei der zweiten Ausführung in der verborgenen Ebene erlernt wurden, Teil der Eingabe für die ausgeblendete Ebene in der dritten Ausführung. So lernt das neuronale Netzwerk allmählich die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung einzelner Wörter.

Eine RNN, die viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

#seq

Abkürzung für wiederkehrende neuronale Netzwerke.

S

Sequenzmodell

#seq

Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit haben. Beispielsweise kann eine Vorhersage prognostiziert werden, welches Video das nächste Video in einer Sequenz bereits angesehener Videos angesehen hat.

D

Timestep

#seq

Eine „ungerollte“ Zelle in einem wiederkehrenden neuronalen Netzwerk. Die folgende Abbildung zeigt beispielsweise drei Zeitachsen (mit den Subskripts „t-1“, „t“ und „t+1“ gekennzeichnet):

Drei Zeitschritte in einem wiederkehrenden neuronalen Netzwerk. Die Ausgabe des ersten Timestep wird dann als Eingabe für den zweiten Timestep verwendet. Die Ausgabe des zweiten Timestep wird dann als Eingabe für den dritten Timestep verwendet.

Trigramm

#seq
#language

Ein N-Gramm, wobei N=3 lautet.

V

Problem mit Farbverlauf

#seq

Die Neigung der Gradienten früher verborgener Schichten einiger tiefer neuronaler Netzwerke zu überraschend niedrig (niedrig). Zunehmende niedrigere Gradienten führen zu immer geringeren Änderungen an der Gewichtung von Knoten in einem tiefen neuronalen Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die unter dem nicht erwünschten Farbverlaufsproblem leiden, werden dann nur schwer oder nicht mehr trainiert. Dieses Problem wird durch Langzeitspeicher für den Arbeitsspeicher behoben.

Vergleichen Sie dies mit dem Problem mit dem Farbverlauf von Explosionen.