Das folgende Widget, das auf dem Embedding Projector von TensorFlow basiert, reduziert 10.000 statische word2vec
-Vektoren in einen 3D‑Raum. Diese Reduzierung der Dimensionen kann irreführend sein, weil die Punkte, die im ursprünglichen hochdimensionalen Raum am nächsten beieinander lagen, in der 3D‑Projektion möglicherweise weiter voneinander entfernt liegen. Die nahegelegensten n Punkte sind violett hervorgehoben, wobei n vom Nutzer in Isolate __ points ausgewählt wird. Die Seitenleiste rechts identifiziert diese nächstgelegenen Nachbarn.
In diesen Experimenten testen Sie word2vec
-Einbettungen im Widget oben.
Aufgabe 1
Versuchen Sie, die 20 nächstgelegenen Nachbarn für Folgendes zu finden und prüfen Sie, in welchen Bereich in der Wolke die Gruppen fallen.
iii
,third
undthree
tao
undway
orange
,yellow
undjuice
Was fällt Ihnen an diesen Ergebnissen auf?
Hier klicken für unsere Antwort
Obwohl iii
, third
und three
semantisch ähnlich sind, erscheinen sie in verschiedenen Kontexten im Text und scheinen in diesem Einbettungsbereich nicht nahe beieinander zu liegen. In word2vec
liegt iii
näher an iv
als an third
.
Ebenso erscheinen way
und tao
am häufigsten bei komplett anderen Wortgruppen im verwendeten Dataset, obwohl Ersteres eine direkte Übersetzung von Letzterem ist. Das führt dazu, dass die zwei Vektoren sehr weit voneinander entfernt liegen.
Die ersten nahegelegensten Nachbarn von orange
sind Farben, aber juice
und peel
, verwandt mit der Bedeutung von orange
als Frucht, erscheinen als 14. und 18. Nachbar. Währenddessen ist prince
, in seiner Bedeutung in „Prince of Orange“ (Prince von Oranien), an 17. Stelle. In der Projektion sind die Wörter, die am nächsten an orange
liegen, yellow
und andere Farben, während bei den nächstgelegenen Wörtern für juice
das Wort orange
gar nicht vorkommt.
Aufgabe 2
Versuchen Sie, einige Eigenschaften der Trainingsdaten zu ermitteln. Versuchen Sie zum Beispiel, die 100 nächsten Nachbarn für Folgendes zu finden, und prüfen Sie, in welchen Bereich in der Wolke die Gruppen fallen:
boston
,paris
,tokyo
,delhi
,moscow
undseoul
(dies ist eine Fangfrage)jane
,sarah
,john
,peter
,rosa
undjuan
Hier klicken für unsere Antwort
Viele der nächstgelegenen Nachbarn für boston
sind andere Städte in den USA. Viele der nächstgelegenen Nachbarn für paris
sind andere Städte in Europa. Für tokyo
und delhi
gibt es anscheinend keine ähnlichen Ergebnisse: Der eine Name wird mit Städten auf der ganzen Welt in Verbindung gebracht, bei denen es sich um beliebte Reiseziele handelt, der andere mit india
und ähnlichen Wörtern. seoul
erscheint in diesem reduzierten Satz an Wortvektoren überhaupt nicht.
Dies weist darauf hin, dass das Dataset viele Dokumente zur Geografie der USA, einige Dokumente zur Geografie Europas und weniger detaillierte Informationen zu anderen Ländern oder Regionen enthielt.
Ebenso enthält dieses Dataset anscheinend viele männlichen Namen englischen Ursprungs, einige weibliche Namen englischen Ursprungs und sehr viel weniger Namen aus anderen Sprachen. Beachten Sie, dass Don Rosa Dagobert-Duck-Comics für Disney schrieb und illustrierte, was wahrscheinlich der Grund dafür ist, dass sich „scrooge“ und „mcduck“ (Vor- und Nachname von Dagobert Duck im Original) unter den nächstgelegene Nachbarn für „rosa“ befinden.
Die vortrainierten Wortvektoren, die von word2vec
bereitgestellt wurden, wurden tatsächlich mit Google News-Artikeln bis 2013 trainiert.
Aufgabe 3
Einbettungen sind nicht nur auf Wörter beschränkt. Bilder, Audio und andere Daten können ebenfalls eingebettet werden. Gehen Sie bei dieser Aufgabe so vor:
- Öffnen Sie den Embedding Projector von TensorFlow.
- Wählen Sie auf der Seitenleiste Data (Daten) links die Option Mnist with images (MNIST mit Bildern) aus. Dadurch erhalten Sie eine Projektion der Einbettungen der Datenbank MNIST, die handgeschriebene Ziffern enthält.
- Klicken Sie, um die Rotation anzuhalten, und wählen Sie ein einzelnes Bild aus. Zoomen Sie nach Bedarf heran und heraus.
- Suchen Sie in der Seitenleiste rechts nach den nächstgelegenen Nachbarn. Gib es irgendwelche Überraschungen?
- Warum haben einige
7
en1
er als nächstgelegenen Nachbarn? Warum haben einige8
er9
er als nächstgelegenen Nachbarn? - Haben die Bilder an den Rändern des Projektionsbereichs irgendwelche Merkmale, die sie von den Bildern in der Mitte des Projektionsbereichs unterscheiden?
Beachten Sie, dass das Modell, das diese Einbettungen generiert hat, Bilddaten erhält, Pixel also, und eine numerische Vektordarstellung für die einzelnen Bilder auswählt. Das Modell stellt nicht automatisch eine gedankliche Verbindung zwischen dem Bild der handgeschriebenen Ziffer und der numerischen Ziffer selbst her.
Hier klicken für unsere Antwort
Aufgrund von Ähnlichkeiten bei der Form werden die Vektordarstellungen einiger schmalerer 7
en näher an den Vektoren für handgeschriebene 1
en platziert. Das Gleiche passiert bei einigen 8
ern und 9
en und sogar bei einigen 5
en und 3
en.
Die handgeschriebenen Ziffern am äußeren Rand des Projektionsbereichs sind anscheinend besser als eine der neun Ziffern definierbar und können besser von anderen möglichen Ziffern abgegrenzt werden.