Einbettungen: interaktive Übungen

Das folgende Widget, das auf dem Embedding Projector von TensorFlow basiert, reduziert 10.000 statische word2vec-Vektoren in einen 3D‑Raum. Diese Reduzierung der Dimensionen kann irreführend sein, weil die Punkte, die im ursprünglichen hochdimensionalen Raum am nächsten beieinander lagen, in der 3D‑Projektion möglicherweise weiter voneinander entfernt liegen. Die nahegelegensten n Punkte sind violett hervorgehoben, wobei n vom Nutzer in Isolate __ points ausgewählt wird. Die Seitenleiste rechts identifiziert diese nächstgelegenen Nachbarn.

In diesen Experimenten testen Sie word2vec-Einbettungen im Widget oben.

Aufgabe 1

Versuchen Sie, die 20 nächstgelegenen Nachbarn für Folgendes zu finden und prüfen Sie, in welchen Bereich in der Wolke die Gruppen fallen.

  • iii, third und three
  • tao und way
  • orange, yellow und juice

Was fällt Ihnen an diesen Ergebnissen auf?

Hier klicken für unsere Antwort

Obwohl iii, third und three semantisch ähnlich sind, erscheinen sie in verschiedenen Kontexten im Text und scheinen in diesem Einbettungsbereich nicht nahe beieinander zu liegen. In word2vec liegt iii näher an iv als an third.

Ebenso erscheinen way und tao am häufigsten bei komplett anderen Wortgruppen im verwendeten Dataset, obwohl Ersteres eine direkte Übersetzung von Letzterem ist. Das führt dazu, dass die zwei Vektoren sehr weit voneinander entfernt liegen.

Die ersten nahegelegensten Nachbarn von orange sind Farben, aber juice und peel, verwandt mit der Bedeutung von orange als Frucht, erscheinen als 14. und 18. Nachbar. Währenddessen ist prince, in seiner Bedeutung in „Prince of Orange“ (Prince von Oranien), an 17. Stelle. In der Projektion sind die Wörter, die am nächsten an orange liegen, yellow und andere Farben, während bei den nächstgelegenen Wörtern für juice das Wort orange gar nicht vorkommt.

Aufgabe 2

Versuchen Sie, einige Eigenschaften der Trainingsdaten zu ermitteln. Versuchen Sie zum Beispiel, die 100 nächsten Nachbarn für Folgendes zu finden, und prüfen Sie, in welchen Bereich in der Wolke die Gruppen fallen:

  • boston, paris, tokyo, delhi, moscow und seoul (dies ist eine Fangfrage)
  • jane, sarah, john, peter, rosa und juan

Hier klicken für unsere Antwort

Viele der nächstgelegenen Nachbarn für boston sind andere Städte in den USA. Viele der nächstgelegenen Nachbarn für paris sind andere Städte in Europa. Für tokyo und delhi gibt es anscheinend keine ähnlichen Ergebnisse: Der eine Name wird mit Städten auf der ganzen Welt in Verbindung gebracht, bei denen es sich um beliebte Reiseziele handelt, der andere mit india und ähnlichen Wörtern. seoul erscheint in diesem reduzierten Satz an Wortvektoren überhaupt nicht.

Dies weist darauf hin, dass das Dataset viele Dokumente zur Geografie der USA, einige Dokumente zur Geografie Europas und weniger detaillierte Informationen zu anderen Ländern oder Regionen enthielt.

Ebenso enthält dieses Dataset anscheinend viele männlichen Namen englischen Ursprungs, einige weibliche Namen englischen Ursprungs und sehr viel weniger Namen aus anderen Sprachen. Beachten Sie, dass Don Rosa Dagobert-Duck-Comics für Disney schrieb und illustrierte, was wahrscheinlich der Grund dafür ist, dass sich „scrooge“ und „mcduck“ (Vor- und Nachname von Dagobert Duck im Original) unter den nächstgelegene Nachbarn für „rosa“ befinden.

Die vortrainierten Wortvektoren, die von word2vec bereitgestellt wurden, wurden tatsächlich mit Google News-Artikeln bis 2013 trainiert.

Aufgabe 3

Einbettungen sind nicht nur auf Wörter beschränkt. Bilder, Audio und andere Daten können ebenfalls eingebettet werden. Gehen Sie bei dieser Aufgabe so vor:

  1. Öffnen Sie den Embedding Projector von TensorFlow.
  2. Wählen Sie auf der Seitenleiste Data (Daten) links die Option Mnist with images (MNIST mit Bildern) aus. Dadurch erhalten Sie eine Projektion der Einbettungen der Datenbank MNIST, die handgeschriebene Ziffern enthält.
  3. Klicken Sie, um die Rotation anzuhalten, und wählen Sie ein einzelnes Bild aus. Zoomen Sie nach Bedarf heran und heraus.
  4. Suchen Sie in der Seitenleiste rechts nach den nächstgelegenen Nachbarn. Gib es irgendwelche Überraschungen?
  • Warum haben einige 7en 1er als nächstgelegenen Nachbarn? Warum haben einige 8er 9er als nächstgelegenen Nachbarn?
  • Haben die Bilder an den Rändern des Projektionsbereichs irgendwelche Merkmale, die sie von den Bildern in der Mitte des Projektionsbereichs unterscheiden?

Beachten Sie, dass das Modell, das diese Einbettungen generiert hat, Bilddaten erhält, Pixel also, und eine numerische Vektordarstellung für die einzelnen Bilder auswählt. Das Modell stellt nicht automatisch eine gedankliche Verbindung zwischen dem Bild der handgeschriebenen Ziffer und der numerischen Ziffer selbst her.

Hier klicken für unsere Antwort

Aufgrund von Ähnlichkeiten bei der Form werden die Vektordarstellungen einiger schmalerer 7en näher an den Vektoren für handgeschriebene 1en platziert. Das Gleiche passiert bei einigen 8ern und 9en und sogar bei einigen 5en und 3en.

Die handgeschriebenen Ziffern am äußeren Rand des Projektionsbereichs sind anscheinend besser als eine der neun Ziffern definierbar und können besser von anderen möglichen Ziffern abgegrenzt werden.