Softmax eğitimi

Önceki sayfada, bir softmax katmanının derin bir derin işleme bir nöral ağ oluşturur. Bu sayfada, tablodaki verilerini işleyebilir.

Eğitim verileri

Softmax eğitim verileri, sorgu özelliklerinden \(x\) ve kullanıcının etkileşimde bulunduğu öğelerin vektörü ( olasılık dağılımı \(p\)) içerir. Bunlar mavi renkle yer alır. Modelin değişkenleri ağırlıklardır farklı katmanlarda yer alır. Bu öğeler şuralarda turuncu renkle işaretlenir: figür. Model, genelde olasılıksal gradyan azalmaktadır.

Softmax derin sinir ağının eğitimini vurgulayan resim

Negatif örnekleme

Kayıp fonksiyonu, iki olasılık vektörünü karşılaştırdığı için \(p, \hat p(x) \in \mathbb R^n\) (kesin referans ve sırasıyla modelin çıktısı) kaybın gradyanı (tek bir sorgu için \(x\)) çok pahalıya mal olabilir. \(n\) Çok büyük bir şirket.

Renk geçişlerini yalnızca pozitif öğelerde hesaplayacak bir sistem ayarlayabilirsiniz (kesin referans vektöründe etkin olan öğeler). Ancak, sistem yalnızca pozitif çiftlerde eğitilirse, model katlanabilir, çünkü aşağıda açıklanmıştır.

Katlama
Sorguları temsil eden 3 farklı kare grubu ve öğeleri temsil eden dairelerin gösterildiği, ikiye katlanmış bir düzlemin resmi. Her grubun farklı bir rengi vardır ve sorgular yalnızca aynı gruptaki öğelerle etkileşimde bulunur. Aşağıdaki şekilde, her rengin farklı bir rengi temsil ettiğini varsayın emin olun. Yalnızca her bir sorgu (kare olarak gösterilir) çoğunlukla aynı renkteki öğelerle (daire olarak gösterilir) etkileşimde bulunur. Örneğin, her bir kategoriyi YouTube'da farklı bir dil olarak değerlendirin. Tipik bir kullanıcı çoğunlukla belirli bir dildeki videolarla etkileşim kurar.

Model, belirli bir öğedeki sorgu/öğe yerleştirmelerin nasıl yerleştirileceğini (aradaki benzerliği doğru şekilde yakalamak) renk), ancak farklı renklerden yapılan yerleştirmeler aynı bölgede bulunabilir şans eseri kapsayabilir. Bu fenomen, katlayarak sahte önerilere neden olabilir: sorgu sırasında, bir öğe için gereken yüksek puanı yanlışlıkla tahmin edebilir. emin olmanız gerekir.

Olumsuz örnekler "alakasız" olarak etiketlenmiş öğelerdir eklemesidir. Eğitim sırasında modelin negatif örneklerini göstermek, modele Farklı grupların yerleştirmeleri birbirinden uzağa doğru itilmelidir.

Gradyanı hesaplamak için tüm öğeleri kullanmak yerine (bu da çok fazla ya da yalnızca olumlu öğeler kullanmak (bu da modelin katlama) negatif örneklemeyi kullanabilirsiniz. Daha net ifade etmek gerekirse, yaklaşık gradyan kullanır:

  • Tüm pozitif öğeler (hedef etikette görünenler)
  • Negatif öğelerin bir örneği ( \({1, …, n}\)\(j\) )

Negatif öğeleri örneklemek için farklı stratejiler vardır:

  • Örnekleme işlemini eşit şekilde yapabilirsiniz.
  • Değişken değeri yüksek olan j öğelerine daha yüksek olasılık verebilirsiniz. puan \(\psi(x) . V_j\). Kolay anlaşılır bir şekilde en fazla katkıyı sağlayan), bu örnekler genellikle negatif anahtar kelimeler olarak adlandırılır.

Matrisi çarpanlara ayırma ve softmax karşılaştırması

DNN modelleri, Matrisi Çarpanlara Ayırmanın birçok sınırlamasını çözer, ancak genelde ve sorgulamak daha pahalıdır. Aşağıdaki tabloda iki model arasındaki önemli farkları inceledik.

Matrisi Çarpanlara Ayırma Softmax DNN
Sorgu özellikleri Eklemek kolay değil. Dahil edilebilir.
Soğuk başlatma Kelime hazinelerini kolayca yönetmiyor emin olun. Bazı buluşsal yöntemler kullanılabilir (örneğin, yeni sorgu, benzer sorguların ortalama yerleştirme sayısı). Yeni sorguları kolayca işler.
Katlama Katlama kolayca azaltılabilir Böylece, WALS'daki gözlemlenmeyen ağırlığı ayarlayabilirsiniz. Katlanabilir. Kullanılması gerekiyor veya yer çekimi gibi teknikleri irdeleyelim.
Eğitim ölçeklenebilirliği Çok büyük boyutlara kolayca ölçeklenebilir (belki yüz milyonlarca öğe veya daha fazla öğe), ancak giriş matrisi seyrektir. Çok büyük boyutlara ölçeklendirmek daha zordur derlemesidir. Karma oluşturma ve karma oluşturma gibi bazı teknikler negatif örnekleme vb.
Yayın ölçeklenebilirliği U, V yerleştirmeleri statik, Ayrıca bir dizi aday da önceden hesaplanıp saklanabilir. Öğe yerleştirmeler (V) statik depolanabilir.

Sorgu yerleştirme genellikle modelin sorgu sırasında hesaplanması gerekir. Bu da modelin sunar.

Özet olarak:

  • Matrisi çarpanlara ayırma, büyük kuruluşlar için genellikle daha iyi seçenektir. Ölçeklendirme daha kolay, sorgulanması daha ucuz ve katlanmaya daha az meyillidir.
  • DNN modelleri, kişiselleştirilmiş tercihleri daha iyi yakalayabilir, ancak ve sorgulanması daha pahalıdır. DNN modelleri tercih edilir DNN modelleri, RACI matrisinde RACI matrisi . Ayrıca genellikle DNN modellerinin katlanması için kabul edilebilir çünkü çoğunlukla uygun olduğu varsayılan, filtrelenmiş bir grup adayı sıralamaya yarar.