Ora sono disponibili incorporamenti per qualsiasi coppia di esempi. Una misura di somiglianza prende questi incorporamenti e restituisce un numero che misura la loro somiglianza. Ricorda che gli incorporamenti sono semplici vettori di numeri. Per trovare la somiglianza tra due vettori \(A = [a_1,a_2,...,a_n]\) e \(B = [b_1,b_2,...,b_n]\), puoi scegliere tre misure di somiglianza, come elencato nella tabella seguente.
Misurare | Significato | Formula | Relazione per aumentare la somiglianza |
---|---|---|---|
Distanza euclidea | Distanza tra le estremità dei vettori | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Diminuisci |
Coseno | Coseno di angolo \(\theta\) tra i vettori | \(\frac{a^T b}{|a| \cdot |b|}\) | Aumenta |
Prodotto con punti | Coseno moltiplicato per la lunghezza di entrambi i vettori | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Aumenta. Aumenta anche con la lunghezza dei vettori. |
Scelta di una misura di somiglianza
A differenza del coseno, il prodotto con punti è proporzionale alla lunghezza del vettore. Questo è importante perché gli esempi che compaiono molto spesso nel set di addestramento (ad esempio i video di YouTube più popolari) tendono ad avere vettori di incorporamento di grandi dimensioni. Se vuoi acquisire popolarità, scegli il prodotto con punti. Tuttavia, il rischio è che esempi popolari potrebbero alterare la metrica della somiglianza. Per bilanciare questo disallineamento, puoi aumentare la lunghezza a un esponente \(\alpha\ < 1\) per calcolare il prodotto con punti come \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Per comprendere meglio come la lunghezza del vettore modifica la misura di somiglianza, normalizza le lunghezze vettoriali su 1 e osserva che le tre misure diventano proporzionali tra loro.
- Distanza euclidea = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Coseno = \(\cos(\theta_{ab})\).