Einbettungen: Die Übersetzung in einen wenigerdimensionalen Raum

Eine Einbettung ist eine relativ niedrigdimensionalen Raum, in den man hochdimensionale Vektoren. Bei der Diskussion zwischen niedrigdimensionale Daten sind, siehe die Kategoriale Daten -Modul.

Einbettungen erleichtern maschinelles Lernen für große Datenmengen Featurevektoren wie da die dünnbesetzten Vektoren, die Mahlzeiten darstellen, vorherigen Abschnitt. Idealerweise erfasst eine Einbettung einige der Semantik der Eingabe, indem Eingaben, die eine ähnliche Bedeutung haben, im Einbettungsbereich zusammenwirken. Gute Einbettungen würden beispielsweise Wort "Auto" näher an „Garage“ als „Elefanten“. Eine Einbettung kann trainiert werden, und modellübergreifend wiederverwendet.

Um eine Vorstellung davon zu vermitteln, wie Einbettungsvektoren Informationen darstellen, betrachten wir nach der eindimensionalen Darstellung der Gerichte Hotdog pizza Salat shawarma und Borscht, auf einer Skala von „am wenigsten Sandwich „wie ein Sandwich“. „Sandwiches“ ist die einzelne Dimension.

Abbildung 3: Entlang einer Achse des Sandwich-Bereichs, vom geringsten bis zum größten Wert:
    Borschtsch, Salat, Pizza, Hotdog, Schawarma. <ph type="x-smartling-placeholder">
</ph> Abbildung 3: Speisen in einer erfundenen Dimension von „Sandwiches“.

An welcher Stelle in dieser Zeile Apfelstrudel Sturz? Er könnte auch zwischen hot dog und shawarma platziert werden. Aber Apple Strudel scheint auch eine zusätzliche Dimension der Süßigkeit zu haben (wie süß ist). das Essen ist) oder die Nachspeise (wie sehr das Essen einem Dessert ähnelt), durch die unterscheidet sich stark von den anderen Optionen. Die folgende Abbildung veranschaulicht dies indem Sie „Nachtisch“ Dimension:

Abbildung 4: Dasselbe Bild wie zuvor, nur mit der vertikalen Achse
    Süßigkeiten. Apfelstrudel ist zwischen Hotdog und Schawarma, aber hoch oben
    weiter oben auf der horizontalen Achse.
Abbildung 4. Lebensmittel, dargestellt als „Sandwiches“ und „Nachtisch“.

Eine Einbettung stellt jedes Element in einem n-dimensionalen Raum mit n dar. Gleitkommazahlen (normalerweise im Bereich –1 bis 1 oder 0 bis 1) Die Einbettung in Abbildung 4 stellt beispielsweise die einzelnen zweidimensionalen Raum mit zwei Koordinaten. Das Element „Apfelstrudel“ befindet sich in der und dem Punkt (0,5, 0,3) zugewiesen werden kann. während "Hotdog" befindet sich im Quadranten unten rechts und könnte dem Punkt (0.2, -0.5) zugewiesen werden.

In einer Einbettung kann der Abstand zwischen zwei Elementen berechnet werden mathematisch betrachtet, und kann als relative Ähnlichkeit zwischen diesen beiden Elemente. Zwei Dinge, die nah beieinander liegen, zum Beispiel shawarma und hot dog in Abbildung 4 enger miteinander verwandt sind als zwei Dinge, die weiter voneinander entfernt sind. andere, z. B. apple strudel und borscht.

Beachten Sie auch, dass apple strudel im 2D-Raum in Abbildung 4 viel weiter entfernt ist. aus shawarma und hot dog als im 1D-Raum. Dies entspricht Intuition: apple strudel ähnelt einem Hotdog oder Schawarma nicht so sehr wie heiß und Schawarmas zueinander passen.

Der Borschtsch ist viel flüssiger als die anderen Produkte. Dieses schlägt eine dritte Dimension vor, die Flüssigkeit, d. h. wie flüssig ein Nahr ist. Durch Hinzufügen dieser Dimension könnten die Elemente wie folgt in 3D dargestellt werden:

Abbildung 5: Gleiches Bild wie vorher, nur mit einer dritten Achse der Flüssigkeit
    orthogonal zu den anderen beiden, wobei Borschtsch weit entlang dieser Achse bewegt wurde.
Abbildung 5: Lebensmittel, die als „Sandwich“ dargestellt werden, „Wüste“, und „Flüssigkeit“.

Wo in diesem 3D-Raum tangyuan gehen? Es ist wie Borschtsch und ein süßes Dessert wie Apfelstrudel. kein Sandwich. Hier ist eine mögliche Platzierung:

Abbildung 6. Gleiches Bild wie zuvor, aber mit Tangyuan ganz weit oben
    und Flüssigkeit und wenig Sandwichgröße.
Abbildung 6: Tangyuanisch zum vorherigen Bild, hoch oben "dessertness" und „Flüssigkeit“ und wenig „Sandwich“.

Beachten Sie, wie viele Informationen mit diesen drei Dimensionen ausgedrückt werden. Sie könnten sich zusätzliche Dimensionen wie Fleischscharfe oder Gebackenheit vorstellen.

Reale Einbettungsräumlichkeiten

Wie Sie in den Lebensmittelbeispielen oben gesehen haben, ist selbst ein kleiner, mehrdimensionaler Raum bietet die Möglichkeit, semantisch ähnliche Elemente zu gruppieren unterschiedlichen Elementen weit auseinander liegen. Position (Entfernung und Richtung) im Vektor die Semantik in einer guten Einbettung codieren kann. Beispiel: Visualisierungen realer Einbettungen veranschaulichen die geometrischen Beziehungen zwischen den Worten für ein Land und seine Hauptstadt. Wie Sie sehen, ist die Entfernung aus "Kanada" nach „Ottawa“ entspricht in etwa der Entfernung von der Türkei bis „Ankara“.

Abbildung 7. Drei Beispiele für Worteinbettungen, die ein Wort darstellen
      Geometrie-Beziehungen: Geschlecht (Mann/Frau und König/Königin sind ungefähr
      gleich lang), die Zeitform des Verbs (Gehen/Gehen und Schwimmen/Schwimmen
      gleich lang) und Hauptstädte (Türkei/Ankara und Vietnam/Hanoi)
      ungefähr gleich lang). <ph type="x-smartling-placeholder">
</ph> Abbildung 7. Einbettungen können bemerkenswerte Analogien erzeugen.

Ein sinnvoller Einbettungsbereich hilft einem Modell für maschinelles Lernen dabei, Muster zu erkennen während des Trainings.

Übung

In dieser Übung verwenden Sie die Funktion Einbetten Projector-Tool zum Visualisieren eines Wortes eine Einbettung namens word2vec, stellt über 70.000 englische Wörter numerisch im Vektorraum dar.

Aufgabe 1

Führen Sie die folgenden Aufgaben aus und beantworten Sie dann die folgende Frage.

  1. Öffne das Tool Embedding Projector.

  2. Geben Sie im rechten Bereich das Wort atom in das Feld Suchen ein. Dann Klicken Sie in den Ergebnissen unten auf das Wort atom (unter 4 Übereinstimmungen). Ihr sollte wie in Abbildung 8 aussehen.

    Abbildung 8. Screenshot des Tools „Embedding Projector“ mit „atom“
    in das Suchfeld eingegeben (rot eingekreist). Die Visualisierung im
    in der Mitte des Tools einen der Punkte mit dem Wort „Atom“,
    und fügt Wortanmerkungen für Punkte in der Nähe hinzu. In der &#39;Nächste
    Punkte die Wörter „Atome“, „Molekül“ und „Elektronen“ aufgeführt sind
    als die nächsten Wörter im Vektorraum zu &quot;Atom&quot;. <ph type="x-smartling-placeholder">
    </ph> Abbildung 8. Projektortool zum Einbetten mit dem Wort „Atom“ hinzugefügt in das Suchfeld ein (rot eingekreist).
  3. Klicken Sie wieder im rechten Bereich auf die Schaltfläche 101 Punkte isolieren (oben Feld Suchen, um die 100 nächsten Wörter zum atom zu sehen. Mein Display sollte wie in Abbildung 9 aussehen.

    Abbildung 9. Screenshot des Tools Embedding Projector, jetzt mit
    „101 Punkte isolieren“ angeklickt (Schaltfläche rot eingekreist). Die Visualisierung
    in Abbildung 8 wird nun nur noch das Wort &#39;Atom&#39; angezeigt.
    die 100 nächstgelegenen Wörter im Vektorraum, einschließlich der Wörter &quot;Atome&quot;,
    „nucleus“ und „particle“. <ph type="x-smartling-placeholder">
    </ph> Abbildung 9. Tool zum Einbetten des Projektors, jetzt mit „101 Punkte isolieren“ angeklickt (rot eingekreist).

Sehen Sie sich nun die Wörter unter Nächste Punkte im ursprünglichen Bereich an. Wie würdest du diese Wörter beschreiben?

Klicken Sie hier, um unsere Antwort zu sehen.

Die Mehrheit der nächstgelegenen Wörter ist Wörter, die häufig assoziiert werden mit dem Wort „Atom“, z. B. der Pluralform „Atome“, und die Wörter „Elektro“ „Molekül“ und „Nucleus“.

Aufgabe 2

Führen Sie die folgenden Aufgaben aus und beantworten Sie dann die folgende Frage:

  1. Klicken Sie im rechten Bereich auf die Schaltfläche Alle Daten anzeigen, um die Daten zurückzusetzen. Visualisierung aus Aufgabe 1.

  2. Geben Sie im rechten Steuerfeld das Wort Uran in das Feld Suchen ein. Ihr Bildschirm sollte wie in Abbildung 10 aussehen.

    Abbildung 10. Screenshot des Tools „Embedding Projector“ mit „Uranium“
    in das Suchfeld eingegeben haben. Die Visualisierung in der Mitte des
    einen der Punkte mit dem Wort „Uranium“ kennzeichnet,
    Wortanmerkungen für Punkte in der Nähe. Wählen Sie im Feld „Nächste Punkte“ die
    Wörter „Kohle“, „Isolopen“, „Nickel“, „Oxid“, „Erz“, „Zink“ und
    &#39;manganese&#39; [manganese] als die nächstgelegenen Wörter im Vektorraum
    &#39;Uranium&#39;. <ph type="x-smartling-placeholder">
    </ph> Abbildung 10. Einbettungsprojektorwerkzeug mit dem Wort „Uran“ die Sie im Suchfeld hinzugefügt haben.

Sehen Sie sich die Wörter unter Nächste Punkte im ursprünglichen Bereich an. Wie unterscheiden sich diese Wörter von den nächsten Wörtern für Atom?

Klicken Sie hier, um unsere Antwort zu sehen.

Uranium bezieht sich auf ein spezifisches radioaktives chemischen Element und viele der am nächsten gelegenen Wörter andere Elemente sind, wie z. B. Zink, Mangan, Kupfer und Aluminium.

Aufgabe 3

Führen Sie die folgenden Aufgaben aus und beantworten Sie dann die folgende Frage:

  1. Klicken Sie im rechten Bereich auf die Schaltfläche Alle Daten anzeigen, um die Daten zurückzusetzen. Visualisierung aus Aufgabe 2.

  2. Geben Sie im rechten Bereich das Wort orange in das Feld Suchen ein. Ihr sollte wie in Abbildung 11 aussehen.

    Abbildung 11. Screenshot des Tools „Embedding Projector“ mit „orange“
    in das Suchfeld eingegeben haben. Die Visualisierung in der Mitte des Tools
    einen der Punkte mit dem Wort „orange“ anmerkt und zusätzlich das Wort „Orange“ hinzufügt.
    Anmerkungen für Punkte in der Nähe. Wählen Sie im Feld „Nächste Punkte“ Liste,
    die Wörter „gelb“, „grün“, „blau“, „lila“ und „farben“ aufgeführt sind
    als die nächsten Wörter im Vektorraum zu &quot;Orange&quot;. <ph type="x-smartling-placeholder">
    </ph> Abbildung 11. Tool zum Einbetten von Projektoren, mit dem Wort „orange“ die Sie im Suchfeld hinzugefügt haben.

Sehen Sie sich die Wörter unter Nächste Punkte im ursprünglichen Bereich an. Was fällt Ihnen an den hier gezeigten Worttypen und den Wortarten auf? nicht angezeigt?

Klicken Sie hier, um unsere Antwort zu sehen.

Fast alle am nächsten gelegenen Wörter sind andere Farben, z. B. "gelb", „Grün“, „blau“, „Lila“ und „Rot“. Nur eines der nächsten Wörter („saft“) sich auf die andere Bedeutung des Wortes (eine Zitrusfrucht) beziehen. Andere Früchte wie etwa „Apfel“ und „Banane“, nicht in die Liste der Nächsten Terme.

Dieses Beispiel veranschaulicht einen der größten Nachteile statischer Einbettungen. wie Word2vec. Alle möglichen Bedeutungen eines Wortes werden durch ein einziges Punkt im Vektorraum. Wenn Sie also eine Ähnlichkeitsanalyse für "Orange" durchführen, es ist nicht möglich, die nächstgelegenen Punkte für eine bestimmte Bezeichnung zu isolieren des Wortes, z. B. "orange" (Obst), aber nicht „Orange“ (Farbe).