Ora ci sono incorporamenti per ogni coppia di esempi. Una somiglianza con supervisione misura prende questi incorporamenti e restituisce un numero che misura la loro somiglianza. Ricorda che gli incorporamenti sono vettori di numeri. Per trovare la somiglianza tra due vettori \(A = [a_1,a_2,...,a_n]\) e \(B = [b_1,b_2,...,b_n]\), scegli una di queste tre misure di somiglianza:
Misura | Significato | Formula | Con l'aumento della somiglianza, questa misura... |
---|---|---|---|
Distanza euclidea | Distanza tra le estremità dei vettori | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Diminuisce |
Coseno | Coseno dell'angolo \(\theta\) tra i vettori | \(\frac{a^T b}{|a| \cdot |b|}\) | Aumenta |
Prodotto scalare | Coseno moltiplicato per le lunghezze di entrambi i vettori | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Aumenta. Aumenta anche con la lunghezza dei vettori. |
Scegliere una misura di somiglianza
A differenza del coseno, il prodotto scalare è proporzionale alla lunghezza del vettore. Questo è importante perché gli esempi che appaiono molto spesso (ad esempio, video popolari di YouTube) tendono ad avere vettori di incorporamento con di grandi dimensioni. Se vuoi catturare la popolarità, scegli il prodotto scalare. Tuttavia, il rischio è che esempi popolari possono alterare la metrica di somiglianza. Per bilanciare questo disallineamento, puoi aumenta la lunghezza a un esponente \(\alpha\ < 1\) per calcolare il prodotto scalare come \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Per comprendere meglio in che modo la lunghezza del vettore cambia la misura di somiglianza, normalizza la lunghezza del vettore è pari a 1 e si nota che le tre misure diventano proporzionali l'uno con l'altro.
- .
- Distanza euclidea = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Prodotto punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Coseno = \(\cos(\theta_{ab})\).
Esame delle misure di somiglianza
Una misura di somiglianza quantifica la somiglianza tra una coppia di di esempio, rispetto ad altre coppie di esempi. I due tipi: manuale e supervisionati, vengono confrontati di seguito:
Tipo | Come creare | Ideale per | Implicazioni |
---|---|---|---|
Manuale | Combina manualmente i dati delle caratteristiche. | Set di dati di piccole dimensioni con caratteristiche facili da combinare. | Fornisce informazioni sui risultati dei calcoli delle somiglianze. Se l'elemento modifiche ai dati, devi aggiornare manualmente la misura di somiglianza. |
Supervisionato | Misura la distanza tra gli incorporamenti generati da e un DNN supervisionato. | Set di dati di grandi dimensioni con caratteristiche difficili da combinare. | Non fornisce insight sui risultati. Tuttavia, una DNN può adattarsi automaticamente alla modifica dei dati delle caratteristiche. |