Diese Seite enthält Glossarbegriffe für Sequenzmodelle. Alle Glossarbegriffe finden Sie hier.
B
Bigram
Ein N-Gramm, in dem N=2 steht.
E
Problem mit explodierenden Farbverlauf
Die Neigung von Gradienten in tiefen neuronalen Netzwerken (insbesondere wiederkehrende neuronale Netzwerke), die überraschend stark ansteigen. Starke Gradienten verursachen häufig sehr große Aktualisierungen der Gewichtung der einzelnen Knoten in einem neuronalen Tiefnetzwerk.
Modelle, die unter dem explodierenden Farbverlauf leiden, sind schwieriger oder unmöglich zu trainieren. Dieses Problem lässt sich mit Farbverlaufs-Clips minimieren.
Vergleichen Sie die Formel mit dem Problem mit dem schwankenden Farbverlauf.
F
Tor entfernen
Der Teil einer Zelle im langfristigen Memory, der den Informationsfluss durch die Zelle reguliert. Gates entfernen, um zu bestimmen, welche Informationen aus dem Zellenstatus verworfen werden sollen.
G
Farbverlauf-Cliping
Ein gängiger Mechanismus, um das Problem mit dem Farbverlauf zu minimieren, indem der Höchstwert von Farbverläufen beim Verwenden des Farbverlaufsabstiegs zum Trainieren eines Modells künstlich begrenzt wird.
L
Langfristiger Arbeitsspeicher (LST, Long-Term Memory)
Ein Zelltyp in einem wiederkehrenden neuronalen Netzwerk, der zur Verarbeitung von Datensequenzen in Anwendungen wie Handschrifterkennung, maschinelle Übersetzung und Bildunterschriften verwendet wird. LSTMs lösen das Schwankungsproblem, das beim Trainieren von RNNs aufgrund langer Datensequenzen auftritt. Dazu werden der Verlauf in einem internen Arbeitsspeicherstatus anhand der neuen Eingabe und des Kontexts aus vorherigen Zellen in der RNN beibehalten.
LSTM
Abkürzung für Langzeitspeicher.
N
N-Gramm
Eine geordnete Reihenfolge von N Wörtern. Zum Beispiel ist wirklich verrückt ein 2-Gramm-Objekt. Da die Reihenfolge relevant ist, ist vermutlich ein anderes 2-Gramm-Format als wirklich verrückt.
N | Name(n) für diese Art von N-Gramm | Beispiele |
---|---|---|
2 | Bigram oder 2-Gramm | essen gehen, essen gehen, zu essen gehen |
3 | Trigramm oder 3-Gramm | zu viel, drei blinde Mäuse, zu viele Glocken |
4 | 4 Gramm | ein Spaziergang im Park, Staub im Wind, der Junge isst Linsen |
Viele Natural Language Understanding-Modelle basieren auf N-Grammen, um das nächste Wort vorherzusagen, das der Nutzer eingibt oder sagt. Angenommen, ein Nutzer hat drei blinde Geräte eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eingibt.
Kontrastiere N-Gramme mit Bags von Wörtern, bei denen es sich um ungeordnete Wortgruppen handelt.
R
wiederkehrendes neuronales Netzwerk
Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird, wobei Teile von jeder Ausführung in die nächste Ausführung führen. Insbesondere bieten verborgene Ebenen aus der vorherigen Ausführung einen Teil der Eingabe für dieselbe ausgeblendete Ebene in der nächsten Ausführung. Wiederkehrende neuronale Netzwerke sind besonders nützlich für die Auswertung von Sequenzen, damit die verborgenen Ebenen aus vorherigen Ausführungen des neuronalen Netzwerks aus früheren Teilen der Sequenz lernen können.
Die folgende Abbildung zeigt beispielsweise ein wiederkehrendes neuronales Netzwerk, das viermal ausgeführt wird. Die Werte, die in der ersten Ausführung in den ausgeblendeten Ebenen erlernt wurden, werden in der Eingabe in die ausgeblendeten Ebenen aufgenommen, die in der zweiten Ausführung enthalten sind. Ebenso werden die Werte, die bei der zweiten Ausführung in der verborgenen Ebene erlernt wurden, Teil der Eingabe für die ausgeblendete Ebene in der dritten Ausführung. So lernt das neuronale Netzwerk allmählich die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung einzelner Wörter.
Abkürzung für wiederkehrende neuronale Netzwerke.
S
Sequenzmodell
Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit haben. Beispielsweise kann eine Vorhersage prognostiziert werden, welches Video das nächste Video in einer Sequenz bereits angesehener Videos angesehen hat.
D
Timestep
Eine „ungerollte“ Zelle in einem wiederkehrenden neuronalen Netzwerk. Die folgende Abbildung zeigt beispielsweise drei Zeitachsen (mit den Subskripts „t-1“, „t“ und „t+1“ gekennzeichnet):
Trigramm
Ein N-Gramm, wobei N=3 lautet.
V
Problem mit Farbverlauf
Die Neigung der Gradienten früher verborgener Schichten einiger tiefer neuronaler Netzwerke zu überraschend niedrig (niedrig). Zunehmende niedrigere Gradienten führen zu immer geringeren Änderungen an der Gewichtung von Knoten in einem tiefen neuronalen Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die unter dem nicht erwünschten Farbverlaufsproblem leiden, werden dann nur schwer oder nicht mehr trainiert. Dieses Problem wird durch Langzeitspeicher für den Arbeitsspeicher behoben.
Vergleichen Sie dies mit dem Problem mit dem Farbverlauf von Explosionen.