Einbettungen: Übersetzung in einen niedrigdimensionalen Bereich

Sie können die Kernprobleme von dünnbesetzten Eingabedaten lösen, indem Sie Ihre hochdimensionalen Daten in einen Bereich mit geringerer Dimension zuordnen.

Wie Sie bereits in den Filmübungen gesehen haben, bietet ein kleiner mehrdimensionaler Raum die Möglichkeit, semantisch ähnliche Elemente zu gruppieren und ähnliche Elemente weit auseinander zu halten. Die Position (Entfernung und Richtung) im Vektorraum kann die Semantik in einer guten Einbettung codieren. Die folgenden Visualisierungen von echten Einbettungen zeigen beispielsweise geometrische Beziehungen, die semantische Beziehungen wie die Beziehung zwischen einem Land und seiner Hauptstadt erfassen:

Drei Beispiele für Worteinbettungen, die Wortbeziehungen geometrisch darstellen: Geschlecht (Männer/Frau und König/Königin), Verbform (Fußgänger/Wandern und Schwimmen/Schwimm) und Großstädte (Türkei/Ankara und Vietnam/Hanoi)

Abbildung 4: Einbettungen können bemerkenswerte Analogien liefern.

Diese Art von aussagekräftigem Raum bietet Ihrem Machine-Learning-System die Möglichkeit, Muster zu erkennen, die bei der Lernaufgabe hilfreich sein können.

Das Netzwerk wird verkleinert

Obwohl wir genügend Dimensionen benötigen, um komplexe semantische Beziehungen zu codieren, möchten wir auch einen Einbettungsraum haben, der klein genug ist, damit wir unser System schneller trainieren können. Eine nützliche Einbettung kann Hunderte von Dimensionen haben. Dies sind wahrscheinlich mehrere Größenstufen, die kleiner als die Größe des Vokabulars für eine Natural Language-Aufgabe sind.