Yerleştirmeler: Yerleştirmeleri alma

Bu bölümde, yerleştirme elde etmek için kullanılan iki yaygın teknik ele alınmaktadır:

  • Boyut azaltma
  • Daha büyük bir nöral ağ modelinden yerleştirme çıkarma

Boyut azaltma teknikleri

Yüksek boyutlu bir alanın önemli yapısını düşük boyutlu bir alanda yakalamak için birçok matematiksel teknik vardır. Teoride, bu tekniklerden herhangi biri makine öğrenimi sistemi için yerleştirme oluşturmak amacıyla kullanılabilir.

Örneğin, kelime yerleştirmeleri oluşturmak için ana bileşen analizi (PCA) kullanılmıştır. Kelime torbası vektörleri gibi bir dizi örnek göz önünde bulundurulduğunda PCA, tek bir boyuta daraltılabilen, yüksek bağıntılı boyutları bulmaya çalışır.

Nöral ağ kapsamında bir yerleştirme eğitimi

Hedef göreviniz için bir nöral ağı eğitirken yerleştirme oluşturabilirsiniz. Bu yaklaşım, belirli sisteminiz için iyi özelleştirilmiş bir yerleştirme sağlar ancak yerleştirmeyi ayrı olarak eğitmekten daha uzun sürebilir.

Genel olarak, sinir ağınız içinde d boyutunda bir gizli katman oluşturabilirsiniz. Bu katman, gömülüm katmanı olarak adlandırılır. d, hem gizli katmandaki düğüm sayısını hem de gömülüm uzayda boyut sayısını temsil eder. Bu yerleştirme katmanı, diğer tüm özellikler ve gizli katmanlarla birleştirilebilir. Her derin sinir ağında olduğu gibi, parametreler de ağ çıkış katmanındaki düğümlerdeki kaybı en aza indirmek için eğitim sırasında optimize edilir.

Gıda önerisi örneğimize dönersek hedefimiz, o anda tercih ettiği yemeklere göre kullanıcıların beğeneceği yeni öğünleri tahmin etmektir. Öncelikle, kullanıcılarımızın en sevdiği beş yiyecek hakkında ek veriler toplayabiliriz. Ardından bu görevi gözetimli öğrenme problemi olarak modelleyebiliriz. Bu ilk beş gıdadan dördünü özellik verileri olarak ayarladıktan sonra beşinci gıdayı, modelimizin tahmin etmeyi amaçladığı pozitif etiket olarak rastgele ayırır ve modelin tahminlerini softmax kaybını kullanarak optimize ederiz.

Eğitim sırasında nöral ağ modeli, yerleştirme katmanı olarak işlev gören ilk gizli katmandaki düğümler için en uygun ağırlıkları öğrenir. Örneğin, modelin ilk gizli katmanda üç düğüm varsa gıda maddeleri için en alakalı üç boyutun sandviç, tatlılık ve sıvılık olduğu tespit edilebilir. Şekil 12'de, "sosisli sandviç" için tek sıcak kodlu giriş değerinin üç boyutlu bir vektöre dönüştürülmesi gösterilmektedir.

Şekil 12. Hot dog'un tek sıcak kodlanması için nöral ağ. İlk katman, her biri temsil ettiği yemeğin (borş çorbası, sosisli sandviç, salata, ... ve şavurma) simgesiyle belirtilmiş 5 düğümden oluşan bir giriş katmanıdır. Bu düğümler sırasıyla [0, 1, 0, ..., 0] değerlerine sahiptir ve "sosisli sandviç"in tek sıcak kodlamasını temsil eder. Giriş katmanı, düğümleri sırasıyla 2,98, -0, 75 ve 0 değerine sahip 3 düğümlü bir yerleştirme katmanına bağlıdır. Yerleştirme katmanı, 5 düğümlü bir gizli katmana bağlanır. Bu gizli katman, daha sonra 5 düğümlü bir çıkış katmanına bağlanır.
Şekil 12. Derin bir nöral ağa giriş olarak sağlanan hot dog için tek sıcak kodlama. Yerleştirme katmanı, tek sıcak kodlamayı üç boyutlu yerleştirme vektörüne [2.98, -0.75, 0] dönüştürür.

Eğitim sırasında, benzer örneklerin yerleşim vektörleri birbirine daha yakın olacak şekilde yerleştirme katmanının ağırlıkları optimize edilir. Yerleştirme katmanının ayrı boyutları (yerleştirme katmanındaki her bir düğümün temsil ettiği şey), nadiren "tatlılık" veya "sıvılık" kadar anlaşılırdır. Bazen ne anlama geldikleri anlaşılabilir, ancak bu her zaman geçerli değildir.

Yer paylaşımları genellikle göreve özeldir ve görev farklı olduğunda birbirinden farklı olur. Örneğin, vejetaryen ve vejetaryen olmayan sınıflandırma modeli tarafından oluşturulan yerleştirmeler iki boyuta sahip olabilir: et içeriği ve süt içeriği. Bu arada, Amerikan mutfağı için kahvaltı ve akşam yemeği sınıflandırıcısı tarafından oluşturulan embeddings'lerin boyutları biraz farklı olabilir: kalori içeriği, tahıl içeriği ve et içeriği. "Tahıl gevreği" ile "yumurtalı pastırmalı sandviç", kahvaltı ve akşam yemeği sınıflandırıcısının yerleştirme alanında birbirine yakın, ancak vejetaryen ve vejetaryen olmayan bir sınıflandırıcının yerleştirme alanında çok uzak olabilir.

Kelime yerleştirme eğitimi

Önceki bölümde, word2vec yerleştirme alanındaki anlamsal ilişkilerin görselleştirmesini incelediniz.

Word2vec, kelime yerleştirmelerini eğitmek için kullanılan birçok algoritmadan biridir. Bu model, anlam açısından benzer kelimeleri geometrik olarak kapalı yerleştirme vektörleriyle eşlemek için dağılım hipotezini kullanır. Dağıtım hipotezi, genellikle aynı komşu kelimelere sahip kelimelerin anlamsal olarak benzer olma eğiliminde olduğunu belirtir. Hem "köpek" hem de "kedi" kelimeleri genellikle "veteriner" kelimesinin yakınında görünür. Bu durum, kelimelerin anlamsal benzerliğini yansıtır. Dilbilimci John Firth 1957'de şöyle demiştir: "Bir kelimeyi, onu kullanan kişilere bakarak tanırsınız."

Aşağıdaki videoda, nöral ağ eğitimi sürecinin bir parçası olarak daha basit bir model kullanarak kelime yerleştirme oluşturmanın başka bir yöntemi açıklanmaktadır:

Statik ve bağlamsal yerleştirmeler

Yukarıdaki videoda bahsedilen türde kelime yerleştirmelerin bir sınırlaması, statik olmalarıdır. Her kelime, cümlede nasıl kullanıldığına bağlı olarak çeşitli anlamlara sahip olsa da vektör uzayında tek bir noktayla temsil edilir. Son alıştırmada, bir renk veya meyve türünü ifade edebilen orange kelimesinin anlamsal benzerliklerini eşlemenin zorluğunu keşfettiniz.

Bu eksiklikleri gidermek için içeriğe dayalı yerleştirmeler geliştirilmiştir. İçeriğe dayalı yerleştirmeler, aynı kelimenin birden çok temsiline olanak tanır. Bu beyanların her biri, kelimenin kullanıldığı bağlamla ilgili bilgiler içerir. Bağlamsal bir yerleştirmede turuncu kelimesinin iki ayrı temsili olabilir: Biri "En sevdiğim kazağda turuncu çizgili" gibi cümlelerde, diğeri "Portakal tamamen olgunlaşmadan ağaçtan koparılmıştı" gibi cümlelerde olduğu gibi, kelimenin "meyve" kullanımını gösterir."