Yerleştirmelerden gelen benzerliği ölçme

Artık herhangi bir örnek çifti için yerleştirmeleriniz var. Gözetimli bir benzerlik ölçümü, bu yerleştirmeleri alır ve benzerliklerini ölçen bir sayı döndürür. Yerleştirmelerin sayı vektörleri olduğunu unutmayın. İki vektör A=[a1,a2,...,an] ve B=[b1,b2,...,bn]arasındaki benzerliği bulmak için aşağıdaki üç benzerlik ölçümünden birini seçin:

ÖlçümAnlamıFormül Benzerlik arttıkça bu ölçüm...
Öklid uzaklığıVektörlerin uçları arasındaki mesafe (a1b1)2+(a2b2)2+...+(aNbN)2 Azalma
KosinüsVektörler arasındaki açının kosinüsü θ aTb|a||b| Artışlar
Nokta çarpımKosinin her iki vektörün uzunluğuyla çarpımı a1b1+a2b2+...+anbn =|a||b|cos(θ) Artışlar Ayrıca vektörlerin uzunluğuyla da artar.

Benzerlik ölçütü seçme

Kosinüsün aksine, nokta çarpımı vektör uzunluğuna orantılıdır. Bu, eğitim veri kümesinde çok sık görünen örneklerin (ör. popüler YouTube videoları) genellikle uzun uzunluklara sahip yerleştirme vektörlerine sahip olması nedeniyle önemlidir. Popülerliği yakalamak istiyorsanız nokta çarpımını seçin. Ancak popüler örneklerin benzerlik metriğini çarpıtması riski vardır. Bu çarpıklığı dengelemek için uzunluğu bir üssüyle çarparak α <1 skaler çarpımı |a|α|b|αcos(θ)olarak hesaplayabilirsiniz.

Vektör uzunluğunun benzerlik ölçümünü nasıl değiştirdiğini daha iyi anlamak için vektör uzunluklarını 1'e normalize edin ve üç ölçümün birbirine orantılı hale geldiğini fark edin.

Kanıt: Benzerlik Ölçümlerinin Orantısallığı
a ve b değerleri ||a||=1 ve ||b||=1olacak şekilde normalleştirildikten sonra bu üç ölçüm şu şekilde ilişkilidir:
  • Öklid uzaklığı = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • Nokta çarpımı = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • Kosinüs = cos(θab).
Bu nedenle, üç benzerlik ölçümü de cos(θab)ile orantılı olduğundan eşdeğerdir.

Benzerlik ölçümlerinin incelenmesi

Benzerlik ölçümü, bir örnek çifti ile diğer örnek çiftleri arasındaki benzerliği nicel olarak ifade eder. Manuel ve gözetimli olmak üzere iki tür aşağıda karşılaştırılmıştır:

TürOluşturmaEn uygun olduğu durumlarÇıkarımlar
ManuelÖzellik verilerini manuel olarak birleştirin. Birleştirilmesi kolay özelliklere sahip küçük veri kümeleri. Benzerlik hesaplamalarının sonuçları hakkında bilgi verir. Özellik verileri değişirse benzerlik ölçümünü manuel olarak güncellemeniz gerekir.
GözetimliGözetimli bir DNN tarafından oluşturulan yerleştirmeler arasındaki mesafeyi ölçme Birleştirilmesi zor özelliklere sahip büyük veri kümeleri. Sonuçlar hakkında bilgi vermez. Ancak DNN, değişen özellik verilerine otomatik olarak uyum sağlayabilir.