embedding, istediğiniz gibi kullanabileceğiniz nispeten düşük boyutlu bir yüksek boyutlu vektörlerden oluşur. Yüksek boyutlu alanlar ile düşük boyutlu veriler için bkz. Kategorik Veri modülünü kullanabilirsiniz.
Yerleştirme, makine öğreniminin büyük ölçekte yürütülmesini kolaylaştırır özellik vektörlerini yemek öğelerini temsil eden seyrek vektörleri önceki bölümü inceleyin. İdeal olarak, bir yerleştirme işlemi, anlam bakımından daha yakın olan girişleri yerleştirerek girdinin anlamı birlikte yerleştirebilirsiniz. Örneğin, iyi bir yerleştirme, "araba" kelimesi “garaj”a daha yakın anlamına gelir. Yerleştirme eğitilebilir tekrar kullanılmasını sağlıyor.
Gömme vektörlerinin bilgileri nasıl gösterdiğine ilişkin bir fikir vermek için yemeklerin tek boyutlu olarak temsil edilmesi sosisli sandviç pizza, salata, şavurma ve borş çorbası, "en az bir sandviç" "çok sandviç gibi" olarak düşünebilirsiniz. "Sandviç" tek boyuttur.
Bu satırın neresinde olursa olsun
elmalı strudel tatlısı
düşüyor musunuz? Belki de hot dog
ile shawarma
arasına yerleştirilmiş olabilir. Ama elma
strudel'in ek bir tatlılık boyutu da var (ne kadar tatlı olduğu)
veya tatlılık (yemeklerin ne kadar tatlı olduğu)?
diğerlerine göre çok farklı. Aşağıdaki şekilde bu
bir "tatlılık" ekleyerek boyut:
Yerleştirme, her öğeyi n ile n boyutlu alanda n ile temsil eder kayan noktalı sayılar (genellikle -1 - 1 veya 0 - 1 aralığındadır). Örneğin, Şekil 4'teki yerleştirmede, iki koordinatlı iki boyutlu uzay. "Elmalı strudel" öğesi içinde grafiğin sağ üst çeyreğine işaret eder ve nokta (0,5, 0,3), "sosisli sandviç" ise grafiğin sağ alt çeyreğindedir ve nokta (0,2, -0,5) atanabilir.
Bir yerleştirmede, herhangi iki öğe arasındaki mesafe hesaplanabilir
matematiksel olarak
ve bu iki metriğin göreceli benzerliği olarak yorumlanabilir.
öğeler. Birbirine yakın iki şey, örneğin shawarma
ve hot dog
birbirinden daha uzak olan iki şeye kıyasla daha yakından alakalıdır.
diğer (apple strudel
ve borscht
gibi).
Ayrıca, Şekil 4'teki 2D uzayda, apple strudel
hedefinin çok daha uzak olduğuna dikkat edin
shawarma
ve hot dog
değerlerinden elde edilen gelir, 1D alanda
sezgi: apple strudel
sosisli sandviç veya şavurma kadar sosisli sandviç
köpekler ve şavurmalar birbirine güveniyor.
Şimdi diğerlerine göre çok daha sıvı olan borş çorbuğunu düşünün. Bu üçüncü bir boyut olan likitlik (yiyeceğin ne kadar sıvı olduğunu) ortaya koyar. Söz konusu boyut eklendiğinde, öğeler şu şekilde 3D olarak görselleştirilebilir:
Bu 3D uzayda nerede, tangyuan gitsin mi? İnsanların borş çorbası gibi bir çorba kokusu ve elmalı strudel gibi tatlı bir tatlı yiyor. sandviç değil. Olası bir yerleşim şu şekildedir:
Bu üç boyutta ne kadar bilginin ifade edildiğine dikkat edin. Etlik veya pişmişlik gibi ek boyutlar düşünebilirsiniz.
Gerçek boyutlu yerleştirilmiş alanlar
Yukarıdaki yiyecek örneklerinde gördüğünüz gibi küçük bir çok boyutlu alan bile anlamsal olarak benzer öğeleri birlikte gruplandırma ve daha kolay birbirlerine bakmaktır. Vektördeki konum (mesafe ve yön) iyi bir yerleştirmede anlamları kodlayabilir. Örneğin, gerçek yerleştirmelerin görselleştirmeleri geometrik ilişkileri gösterir kelimelerin arasında yer alır. Buradan gördüğünüz gibi, bu mesafe "Kanada"dan "Ottawa" olarak "Türkiye"ye olan mesafeyle hemen hemen aynı - "Ankara".
Anlamlı bir yerleştirme alanı, makine öğrenimi modelinin kalıpları algılamasına yardımcı olur göz atabilirsiniz.
Antrenman
Bu alıştırmada Gömme Bir kelimeyi görselleştirmek için projektör aracı word2vec adlı bir öğenin vektör alanında sayısal olarak 70.000'den fazla İngilizce kelimeyi temsil eder.
Görev 1
Aşağıdaki görevleri gerçekleştirin ve ardından aşağıdaki soruyu yanıtlayın.
Yerleştirme Projektörü aracını açın.
Sağdaki panelde, Arama alanına atom kelimesini girin. Sonra Aşağıdaki sonuçlarda atom kelimesini tıklayın (4 eşleşmenin altında). Sizin gibi bir ifade seçin.
Yine sağ panelde 101 puanı izole et düğmesini tıklayın (yukarıda Arama alanını) kullanarak atom'a en yakın 100 kelimeyi gösterin. Ekranınız Şekil 9 gibi görünmelidir.
Şimdi, Orijinal alandaki en yakın noktalar bölümünde listelenen kelimeleri inceleyin. Bu kelimeleri nasıl tanımlarsınız?
Yanıtımız için burayı tıklayın
En yakın kelimelerin çoğu, genellikle sık kullanılan kelimelerdir yerine atom kullanabilirsiniz. Örneğin, "atomlar", bu kelimelerin "elektron", "molekül", ve "nucleus"tur.
Görev 2
Aşağıdaki görevleri gerçekleştirin ve ardından aşağıdaki soruyu yanıtlayın:
Verileri sıfırlamak için sağ paneldeki Tüm Verileri Göster düğmesini tıklayın. görselleştirmeye öncelik verin.
Sağdaki panelde, Arama alanına uranyum kelimesini girin. Ekranınız Şekil 10'daki gibi görünmelidir.
Orijinal alandaki en yakın noktalar bölümünde listelenen kelimeleri inceleyin. Nasıl? bu kelimeler, atom için en yakın kelimelerden farklı mı?
Yanıtımız için burayı tıklayın
Uranyum, belirli bir radyoaktif maddeyi kimyasal element ve en yakın kelimelerin çoğu çinko, mangan, bakır ve alüminyum.
Görev 3
Aşağıdaki görevleri gerçekleştirin ve ardından aşağıdaki soruyu yanıtlayın:
Verileri sıfırlamak için sağ paneldeki Tüm Verileri Göster düğmesini tıklayın. görselleştirmeye öncelik verin.
Sağdaki panelde, Arama alanına turuncu kelimesini girin. Sizin ekran Şekil 11 gibi görünmelidir.
Orijinal alandaki en yakın noktalar bölümünde listelenen kelimeleri inceleyin. Burada gösterilen kelime türleri ve kelime türleriyle ilgili ne fark ettiniz? burada gösterilmiyor mu?
Yanıtımız için burayı tıklayın
En yakın kelimelerin neredeyse hepsi "sarı", örneğin "sarı", "yeşil", "mavi", "mor", ve "red" yer alır. En yakın kelimelerden ("meyve/sebze suları") sadece biri kelimenin diğer anlamına (narenciye meyvesi) atıfta bulunmalıdır. Diğer meyveler görebilirsiniz. Örneğin, "elma" ve "muz", şu listenin en yakın terimlerdir.
Bu örnekte, statik yerleştirmelerin önemli eksikliklerinden biri gösterilmektedir gibi araçlar da kullanabilirsiniz. Bir kelimenin olası tüm anlamları tek bir kelime ile temsil edilir olmalıdır. Dolayısıyla, "turuncu" için benzerlik analizi yaptığınızda, bu Belirli bir notasyon için en yakın noktaları ayırmak mümkün değildir "turuncu" örneğinde olduğu gibi, (meyve) ancak "turuncu" değil (color) değerini alır.