Yerleştirmeler: Daha düşük boyutlu bir alana çevirme

embedding, istediğiniz gibi kullanabileceğiniz nispeten düşük boyutlu bir yüksek boyutlu vektörlerden oluşur. Yüksek boyutlu alanlar ile düşük boyutlu veriler için bkz. Kategorik Veri modülünü kullanabilirsiniz.

Yerleştirme, makine öğreniminin büyük ölçekte yürütülmesini kolaylaştırır özellik vektörlerini yemek öğelerini temsil eden seyrek vektörleri önceki bölümü inceleyin. İdeal olarak, bir yerleştirme işlemi, anlam bakımından daha yakın olan girişleri yerleştirerek girdinin anlamı birlikte yerleştirebilirsiniz. Örneğin, iyi bir yerleştirme, "araba" kelimesi “garaj”a daha yakın anlamına gelir. Yerleştirme eğitilebilir tekrar kullanılmasını sağlıyor.

Gömme vektörlerinin bilgileri nasıl gösterdiğine ilişkin bir fikir vermek için yemeklerin tek boyutlu olarak temsil edilmesi sosisli sandviç pizza, salata, şavurma ve borş çorbası, "en az bir sandviç" "çok sandviç gibi" olarak düşünebilirsiniz. "Sandviç" tek boyuttur.

Şekil 3. Sandviç ekseninde, en azdan en çoka:
    borş çorbası, salata, pizza, sosisli sandviç, şavurma.
Şekil 3. "Sandviç" gibi hayali bir boyuttaki yiyecekler.

Bu satırın neresinde olursa olsun elmalı strudel tatlısı düşüyor musunuz? Belki de hot dog ile shawarma arasına yerleştirilmiş olabilir. Ama elma strudel'in ek bir tatlılık boyutu da var (ne kadar tatlı olduğu) veya tatlılık (yemeklerin ne kadar tatlı olduğu)? diğerlerine göre çok farklı. Aşağıdaki şekilde bu bir "tatlılık" ekleyerek boyut:

Şekil 4. Önceki resimle aynı, ancak dikey eksenine sahip
    tatlılık. Elmalı strudel sosisli sandviç ile şavurma arasında ancak çok yukarıda
    yukarıya doğru kuruluyor.
Şekil 4. İkisi de "sandviç" tarafından çizilen yiyecekler ve "tatlılık".

Yerleştirme, her öğeyi n ile n boyutlu alanda n ile temsil eder kayan noktalı sayılar (genellikle -1 - 1 veya 0 - 1 aralığındadır). Örneğin, Şekil 4'teki yerleştirmede, iki koordinatlı iki boyutlu uzay. "Elmalı strudel" öğesi içinde grafiğin sağ üst çeyreğine işaret eder ve nokta (0,5, 0,3), "sosisli sandviç" ise grafiğin sağ alt çeyreğindedir ve nokta (0,2, -0,5) atanabilir.

Bir yerleştirmede, herhangi iki öğe arasındaki mesafe hesaplanabilir matematiksel olarak ve bu iki metriğin göreceli benzerliği olarak yorumlanabilir. öğeler. Birbirine yakın iki şey, örneğin shawarma ve hot dog birbirinden daha uzak olan iki şeye kıyasla daha yakından alakalıdır. diğer (apple strudel ve borscht gibi).

Ayrıca, Şekil 4'teki 2D uzayda, apple strudel hedefinin çok daha uzak olduğuna dikkat edin shawarma ve hot dog değerlerinden elde edilen gelir, 1D alanda sezgi: apple strudel sosisli sandviç veya şavurma kadar sosisli sandviç köpekler ve şavurmalar birbirine güveniyor.

Şimdi diğerlerine göre çok daha sıvı olan borş çorbuğunu düşünün. Bu üçüncü bir boyut olan likitlik (yiyeceğin ne kadar sıvı olduğunu) ortaya koyar. Söz konusu boyut eklendiğinde, öğeler şu şekilde 3D olarak görselleştirilebilir:

Şekil 5. Öncekiyle aynı resim, ancak üçüncü bir sıvı ekseni var
    diğer ikisine dikey olmak üzere ve borş çorbası bu eksende çok uzaklaştı.
Şekil 5. "Sandviç"e göre sıralanmış yiyecekler "tatlılık", ve "likitlik".

Bu 3D uzayda nerede, tangyuan gitsin mi? İnsanların borş çorbası gibi bir çorba kokusu ve elmalı strudel gibi tatlı bir tatlı yiyor. sandviç değil. Olası bir yerleşim şu şekildedir:

Şekil 6. Öncekiyle aynı resim, ancak yukarıya yerleştirilmiş tangyuan var
    tatlı, bol tatlı ve sandviç eksikti.
Şekil 6. Önceki resme tangyuan ekleniyor, üstte "tatlılık" ve "likitlik" ve “sandviç”i azdır.

Bu üç boyutta ne kadar bilginin ifade edildiğine dikkat edin. Etlik veya pişmişlik gibi ek boyutlar düşünebilirsiniz.

Gerçek boyutlu yerleştirilmiş alanlar

Yukarıdaki yiyecek örneklerinde gördüğünüz gibi küçük bir çok boyutlu alan bile anlamsal olarak benzer öğeleri birlikte gruplandırma ve daha kolay birbirlerine bakmaktır. Vektördeki konum (mesafe ve yön) iyi bir yerleştirmede anlamları kodlayabilir. Örneğin, gerçek yerleştirmelerin görselleştirmeleri geometrik ilişkileri gösterir kelimelerin arasında yer alır. Buradan gördüğünüz gibi, bu mesafe "Kanada"dan "Ottawa" olarak "Türkiye"ye olan mesafeyle hemen hemen aynı - "Ankara".

Şekil 7. Kelime yerleştirmeye ilişkin üç örnek
      Geometrik ilişkiler: cinsiyet (erkek/kadın ve kral/kraliçe kabaca
      aynı uzunlukta), fiil kipleri (yürüme/yürüyüş ve yüzme/yüzme kabaca
      büyük şehirleri (Türkiye/Ankara ve Vietnam/Hanoi)
      yaklaşık olarak aynı uzunlukta).
7. Şekil. Yerleştirmeler kayda değer analojiler oluşturabilir.

Anlamlı bir yerleştirme alanı, makine öğrenimi modelinin kalıpları algılamasına yardımcı olur göz atabilirsiniz.

Antrenman

Bu alıştırmada Gömme Bir kelimeyi görselleştirmek için projektör aracı word2vec adlı bir öğenin vektör alanında sayısal olarak 70.000'den fazla İngilizce kelimeyi temsil eder.

Görev 1

Aşağıdaki görevleri gerçekleştirin ve ardından aşağıdaki soruyu yanıtlayın.

  1. Yerleştirme Projektörü aracını açın.

  2. Sağdaki panelde, Arama alanına atom kelimesini girin. Sonra Aşağıdaki sonuçlarda atom kelimesini tıklayın (4 eşleşmenin altında). Sizin gibi bir ifade seçin.

    Şekil 8. İçinde "atom" bulunan Projektör Yerleştirme aracının ekran görüntüsü
    girilen anahtar kelimeleri arama alanına (kırmızı daire içine alınmış) girin. Görselleştirme
    merkezinde ise noktalardan birine "atom"
    ve yakındaki noktalar için kelime ek açıklamaları ekliyor. 'En yakın
    puan "atomlar", "molekül" ve "elektronlar" kelimelerini içeren liste listeleniyor
    vektör uzayda "atom"a en yakın kelimeler olarak.
    8. Şekil. "Atom" kelimesini içeren projektör aracı yerleştirme eklendi girin.
  3. Yine sağ panelde 101 puanı izole et düğmesini tıklayın (yukarıda Arama alanını) kullanarak atom'a en yakın 100 kelimeyi gösterin. Ekranınız Şekil 9 gibi görünmelidir.

    Şekil 9. Yerleştirme Projektörü aracının ekran görüntüsü
    "101 puan ayırın" tıklayın (kırmızı renkli düğme). Görselleştirme
    yalnızca 'atom' kelimesini gösterecek şekilde güncellenmiştir ve
    Vektör uzayda en yakın 100 kelimeyi içerir. Bunlar arasında "atomlar",
    "nucleus" ve "parçacık" olarak adlandırılır.
    9. Şekil. Projektör yerleştirme aracı, artık "101 noktayı Isolate" özelliğine sahip tıklayın (kırmızı daire içinde).

Şimdi, Orijinal alandaki en yakın noktalar bölümünde listelenen kelimeleri inceleyin. Bu kelimeleri nasıl tanımlarsınız?

Yanıtımız için burayı tıklayın

En yakın kelimelerin çoğu, genellikle sık kullanılan kelimelerdir yerine atom kullanabilirsiniz. Örneğin, "atomlar", bu kelimelerin "elektron", "molekül", ve "nucleus"tur.

Görev 2

Aşağıdaki görevleri gerçekleştirin ve ardından aşağıdaki soruyu yanıtlayın:

  1. Verileri sıfırlamak için sağ paneldeki Tüm Verileri Göster düğmesini tıklayın. görselleştirmeye öncelik verin.

  2. Sağdaki panelde, Arama alanına uranyum kelimesini girin. Ekranınız Şekil 10'daki gibi görünmelidir.

    Şekil 10. İçinde "uranyum" bulunan Projektör Yerleştirme aracının ekran görüntüsü
    girilir. Görselleştirme,
    araç, noktalardan birine "uranyum" kelimesini ekler ve
    kelime ek açıklamaları kullanın. "En yakın noktalar"da liste,
    "kömür", "izotop", "nikel", "oksit", "ore", "çinko" ve
    "manganez" vektör uzayda en yakın kelimeler olarak listelenir
    "uranyum".
    Şekil 10. "Uranyum" kelimesini içeren projektör aracı yerleştirme eklenir.

Orijinal alandaki en yakın noktalar bölümünde listelenen kelimeleri inceleyin. Nasıl? bu kelimeler, atom için en yakın kelimelerden farklı mı?

Yanıtımız için burayı tıklayın

Uranyum, belirli bir radyoaktif maddeyi kimyasal element ve en yakın kelimelerin çoğu çinko, mangan, bakır ve alüminyum.

Görev 3

Aşağıdaki görevleri gerçekleştirin ve ardından aşağıdaki soruyu yanıtlayın:

  1. Verileri sıfırlamak için sağ paneldeki Tüm Verileri Göster düğmesini tıklayın. görselleştirmeye öncelik verin.

  2. Sağdaki panelde, Arama alanına turuncu kelimesini girin. Sizin ekran Şekil 11 gibi görünmelidir.

    Şekil 11. İçinde "turuncu" olan Projektör Yerleştirme aracının ekran görüntüsü
    girilir. Aracın ortasındaki görselleştirme
    noktalardan birine "turuncu" kelimesini ekler ve
    ek açıklamalar yer alır. "En yakın noktalar"da liste,
    "sarı", "yeşil", "mavi", "mor" ve "renkler" kelimeleri listeleniyor
    vektör alanında "turuncu"ya en yakın kelimeler olarak ayarlanır.
    Şekil 11. "Turuncu" kelimesini içeren projektör aracı yerleştiriliyor eklenir.

Orijinal alandaki en yakın noktalar bölümünde listelenen kelimeleri inceleyin. Burada gösterilen kelime türleri ve kelime türleriyle ilgili ne fark ettiniz? burada gösterilmiyor mu?

Yanıtımız için burayı tıklayın

En yakın kelimelerin neredeyse hepsi "sarı", örneğin "sarı", "yeşil", "mavi", "mor", ve "red" yer alır. En yakın kelimelerden ("meyve/sebze suları") sadece biri kelimenin diğer anlamına (narenciye meyvesi) atıfta bulunmalıdır. Diğer meyveler görebilirsiniz. Örneğin, "elma" ve "muz", şu listenin en yakın terimlerdir.

Bu örnekte, statik yerleştirmelerin önemli eksikliklerinden biri gösterilmektedir gibi araçlar da kullanabilirsiniz. Bir kelimenin olası tüm anlamları tek bir kelime ile temsil edilir olmalıdır. Dolayısıyla, "turuncu" için benzerlik analizi yaptığınızda, bu Belirli bir notasyon için en yakın noktaları ayırmak mümkün değildir "turuncu" örneğinde olduğu gibi, (meyve) ancak "turuncu" değil (color) değerini alır.