Einbettungen: Die Übersetzung in einen wenigerdimensionalen Raum
Eine embedding ist eine
relativ niedrigdimensionalen Raum, in den man
hochdimensionale Vektoren. Bei der Diskussion zwischen
niedrigdimensionale Daten sind, siehe die Kategoriale
Daten
-Modul.
Einbettungen erleichtern maschinelles Lernen für große Datenmengen
Featurevektoren wie
da die dünnbesetzten Vektoren, die Mahlzeiten darstellen,
vorherigen Abschnitt. Idealerweise erfasst eine Einbettung einige der
Semantik der Eingabe, indem Eingaben, die eine ähnliche Bedeutung haben,
im Einbettungsbereich zusammenwirken. Gute Einbettungen würden beispielsweise
Wort "Auto" näher an „Garage“ als „Elefanten“. Eine Einbettung kann trainiert werden,
und modellübergreifend wiederverwendet.
Um eine Vorstellung davon zu vermitteln, wie Einbettungsvektoren Informationen darstellen, betrachten wir
nach der eindimensionalen Darstellung der Gerichte
Hotdog
pizza
Salat
shawarma und
Borscht,
auf einer Skala von „am wenigsten
Sandwich
„wie ein Sandwich“. „Sandwiches“ ist die einzelne Dimension.
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
Abbildung 3: Speisen in einer erfundenen Dimension von „Sandwiches“.
An welcher Stelle in dieser Zeile
Apfelstrudel
Sturz? Er könnte auch zwischen hot dog und shawarma platziert werden. Aber Apple
Strudel scheint auch eine zusätzliche Dimension der Süßigkeit zu haben (wie süß ist).
das Essen ist) oder die Nachspeise (wie sehr das Essen einem Dessert ähnelt), durch die
unterscheidet sich stark von den anderen Optionen. Die folgende Abbildung veranschaulicht dies
indem Sie „Nachtisch“ Dimension:
Abbildung 4. Lebensmittel, dargestellt als „Sandwiches“ und „Nachtisch“.
Eine Einbettung stellt jedes Element in einem n-dimensionalen Raum mit n dar.
Gleitkommazahlen (normalerweise im Bereich –1 bis 1 oder 0 bis 1)
Beispielsweise stellt die Einbettung in Abbildung 4 jedes Gericht in
zweidimensionalen Raum mit zwei Koordinaten. Das Element „Apfelstrudel“ befindet sich in der
und dem Punkt (0,5, 0,3) zugewiesen werden kann.
während "Hotdog" befindet sich im Quadranten unten rechts
und könnte dem Punkt (0.2, -0.5) zugewiesen werden.
In einer Einbettung kann der Abstand zwischen zwei Elementen berechnet werden
mathematisch betrachtet,
und kann als relative Ähnlichkeit zwischen diesen beiden
Elemente. Zwei Dinge, die nah beieinander liegen, zum Beispiel shawarma und hot dog
in Abbildung 4 enger miteinander verwandt sind als zwei Dinge, die weiter voneinander entfernt sind.
andere, z. B. apple strudel und borscht.
Beachten Sie auch, dass apple strudel im 2D-Raum in Abbildung 4 viel weiter entfernt ist.
aus shawarma und hot dog als im 1D-Raum. Dies entspricht
Intuition: apple strudel ähnelt einem Hotdog oder Schawarma nicht so sehr wie heiß
und Schawarmas zueinander passen.
Der Borschtsch ist viel flüssiger als die anderen Produkte. Dieses
schlägt eine dritte Dimension vor, die Flüssigkeit, d. h. wie flüssig ein Nahr ist.
Durch Hinzufügen dieser Dimension könnten die Elemente wie folgt in 3D dargestellt werden:
Abbildung 5: Lebensmittel, die als
„Sandwich“ dargestellt werden, „Wüste“, und
„Flüssigkeit“.
Wo in diesem 3D-Raum
tangyuan gehen? Es ist
wie Borschtsch und ein süßes Dessert wie Apfelstrudel.
kein Sandwich. Hier ist eine mögliche Platzierung:
Abbildung 6: Tangyuanisch zum vorherigen Bild, hoch oben
"dessertness" und „Flüssigkeit“ und wenig „Sandwich“.
Beachten Sie, wie viele Informationen mit diesen drei Dimensionen ausgedrückt werden.
Sie könnten sich weitere Dimensionen wie Fleisch oder Gebackenheit vorstellen.
Reale Einbettungsräumlichkeiten
Wie Sie in den Lebensmittelbeispielen oben gesehen haben, ist selbst ein kleiner, mehrdimensionaler Raum
bietet die Möglichkeit, semantisch ähnliche Elemente zu gruppieren
unterschiedlichen Elementen weit auseinander liegen. Position (Entfernung und Richtung) im Vektor
die Semantik in einer guten Einbettung codieren kann. Beispiel:
Visualisierungen realer Einbettungen veranschaulichen die geometrischen Beziehungen
zwischen den Worten für ein Land und seine Hauptstadt. Wie Sie sehen, ist die Entfernung
aus "Kanada" nach „Ottawa“ entspricht in etwa der Entfernung von der Türkei bis
„Ankara“.
Ein sinnvoller Einbettungsbereich hilft einem Modell für maschinelles Lernen dabei, Muster zu erkennen
während des Trainings.
Übung
In dieser Übung verwenden Sie die Funktion Einbetten
Projector-Tool zum Visualisieren eines Wortes
eine Einbettung namens word2vec,
stellt über 70.000 englische Wörter numerisch im Vektorraum dar.
Aufgabe 1
Führen Sie die folgenden Aufgaben aus und beantworten Sie dann die folgende Frage.
Geben Sie im rechten Bereich das Wort atom in das Feld Suchen ein. Dann
Klicken Sie in den Ergebnissen unten auf das Wort atom (unter 4 Übereinstimmungen). Ihr
sollte wie in Abbildung 8 aussehen.
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
Abbildung 8. Projektortool zum Einbetten mit dem Wort „Atom“ hinzugefügt
in das Suchfeld ein (rot eingekreist).
Klicken Sie wieder im rechten Bereich auf die Schaltfläche 101 Punkte isolieren (oben
Feld Suchen, um die 100 nächsten Wörter zum atom zu sehen. Mein Display
sollte wie in Abbildung 9 aussehen.
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
Abbildung 9. Tool zum Einbetten des Projektors, jetzt mit „101 Punkte isolieren“
angeklickt (rot eingekreist).
Sehen Sie sich nun die Wörter unter Nächste Punkte im ursprünglichen Bereich an.
Wie würdest du diese Wörter beschreiben?
Klicken Sie hier, um unsere Antwort zu sehen.
Die Mehrheit der nächstgelegenen Wörter ist Wörter, die häufig assoziiert werden
mit dem Wort „Atom“,
z. B. der Pluralform „Atome“, und die Wörter
„Elektro“ „Molekül“ und „Nucleus“.
Aufgabe 2
Führen Sie die folgenden Aufgaben aus und beantworten Sie dann die folgende Frage:
Klicken Sie im rechten Bereich auf die Schaltfläche Alle Daten anzeigen, um die Daten zurückzusetzen.
Visualisierung aus Aufgabe 1.
Geben Sie im rechten Steuerfeld das Wort Uran in das Feld Suchen ein.
Ihr Bildschirm sollte wie in Abbildung 10 aussehen.
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
Abbildung 10. Einbettungsprojektorwerkzeug mit dem Wort „Uran“
die Sie im Suchfeld hinzugefügt haben.
Sehen Sie sich die Wörter unter Nächste Punkte im ursprünglichen Bereich an. Wie
unterscheiden sich diese Wörter von den nächsten Wörtern für Atom?
Klicken Sie hier, um unsere Antwort zu sehen.
Uranium bezieht sich auf ein spezifisches radioaktives
chemischen Element und
viele der am nächsten gelegenen Wörter
andere Elemente sind, wie z. B. Zink, Mangan,
Kupfer und Aluminium.
Aufgabe 3
Führen Sie die folgenden Aufgaben aus und beantworten Sie dann die folgende Frage:
Klicken Sie im rechten Bereich auf die Schaltfläche Alle Daten anzeigen, um die Daten zurückzusetzen.
Visualisierung aus Aufgabe 2.
Geben Sie im rechten Bereich das Wort orange in das Feld Suchen ein. Ihr
sollte wie in Abbildung 11 aussehen.
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
Abbildung 11. Projektortool zum Einbetten mit dem Wort „orange“
die Sie im Suchfeld hinzugefügt haben.
Sehen Sie sich die Wörter unter Nächste Punkte im ursprünglichen Bereich an.
Was fällt Ihnen an den hier gezeigten Worttypen und den Wortarten auf?
nicht angezeigt?
Klicken Sie hier, um unsere Antwort zu sehen.
Fast alle am nächsten gelegenen Wörter
sind andere Farben, z. B. "gelb", „Grün“,
„blau“, „Lila“ und „Rot“. Nur eines der nächsten Wörter („saft“)
sich auf die andere Bedeutung des Wortes (eine Zitrusfrucht) beziehen. Andere Früchte
wie etwa „Apfel“ und „Banane“, nicht in die Liste der
Nächsten Terme.
Dieses Beispiel veranschaulicht einen der größten Nachteile statischer Einbettungen.
wie Word2vec. Alle möglichen Bedeutungen eines Wortes werden durch ein einziges
Punkt im Vektorraum. Wenn Sie also eine Ähnlichkeitsanalyse für "Orange" durchführen, es ist
nicht möglich, die nächstgelegenen Punkte für eine bestimmte Bezeichnung zu isolieren
des Wortes, z. B. "orange" (Obst), aber nicht „Orange“ (Farbe).
[null,null,["Zuletzt aktualisiert: 2024-09-05 (UTC)."],[[["Embeddings are low-dimensional representations of high-dimensional data, often used to capture semantic relationships between items."],["Embeddings place similar items closer together in the embedding space, allowing for efficient machine learning on large datasets."],["The distance between points in an embedding space represents the relative similarity between the corresponding items."],["Real-world embeddings can encode complex relationships, like those between countries and their capitals, allowing models to detect patterns."],["Static embeddings like word2vec represent all meanings of a word with a single point, which can be a limitation in some cases."]]],[]]