Misurazione della similarità dagli incorporamenti

Ora sono disponibili incorporamenti per qualsiasi coppia di esempi. Una misura di somiglianza prende questi incorporamenti e restituisce un numero che misura la loro somiglianza. Ricorda che gli incorporamenti sono semplici vettori di numeri. Per trovare la somiglianza tra due vettori \(A = [a_1,a_2,...,a_n]\) e \(B = [b_1,b_2,...,b_n]\), puoi scegliere tre misure di somiglianza, come elencato nella tabella seguente.

MisurareSignificatoFormulaRelazione per aumentare la somiglianza
Distanza euclideaDistanza tra le estremità dei vettori \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Diminuisci
CosenoCoseno di angolo \(\theta\) tra i vettori \(\frac{a^T b}{|a| \cdot |b|}\) Aumenta
Prodotto con puntiCoseno moltiplicato per la lunghezza di entrambi i vettori \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Aumenta. Aumenta anche con la lunghezza dei vettori.

Scelta di una misura di somiglianza

A differenza del coseno, il prodotto con punti è proporzionale alla lunghezza del vettore. Questo è importante perché gli esempi che compaiono molto spesso nel set di addestramento (ad esempio i video di YouTube più popolari) tendono ad avere vettori di incorporamento di grandi dimensioni. Se vuoi acquisire popolarità, scegli il prodotto con punti. Tuttavia, il rischio è che esempi popolari potrebbero alterare la metrica della somiglianza. Per bilanciare questo disallineamento, puoi aumentare la lunghezza a un esponente \(\alpha\ < 1\) per calcolare il prodotto con punti come \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Per comprendere meglio come la lunghezza del vettore modifica la misura di somiglianza, normalizza le lunghezze vettoriali su 1 e osserva che le tre misure diventano proporzionali tra loro.

Prova: proporzionalità delle misure di somiglianza
Dopo aver normalizzato a e b in modo che \(||a||=1\) e \(||b||=1\), queste tre misure siano correlate a:
  • Distanza euclidea = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Coseno = \(\cos(\theta_{ab})\).
Pertanto, tutte e tre le misure di similitudine sono equivalenti perché sono proporzionali a \(cos(\theta_{ab})\).