Misurazione della somiglianza dagli incorporamenti

Ora ci sono incorporamenti per ogni coppia di esempi. Una somiglianza con supervisione misura prende questi incorporamenti e restituisce un numero che misura la loro somiglianza. Ricorda che gli incorporamenti sono vettori di numeri. Per trovare la somiglianza tra due vettori \(A = [a_1,a_2,...,a_n]\) e \(B = [b_1,b_2,...,b_n]\), scegli una di queste tre misure di somiglianza:

MisuraSignificatoFormula Con l'aumento della somiglianza, questa misura...
Distanza euclideaDistanza tra le estremità dei vettori \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Diminuisce
CosenoCoseno dell'angolo \(\theta\) tra i vettori \(\frac{a^T b}{|a| \cdot |b|}\) Aumenta
Prodotto scalareCoseno moltiplicato per le lunghezze di entrambi i vettori \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Aumenta. Aumenta anche con la lunghezza dei vettori.

Scegliere una misura di somiglianza

A differenza del coseno, il prodotto scalare è proporzionale alla lunghezza del vettore. Questo è importante perché gli esempi che appaiono molto spesso (ad esempio, video popolari di YouTube) tendono ad avere vettori di incorporamento con di grandi dimensioni. Se vuoi catturare la popolarità, scegli il prodotto scalare. Tuttavia, il rischio è che esempi popolari possono alterare la metrica di somiglianza. Per bilanciare questo disallineamento, puoi aumenta la lunghezza a un esponente \(\alpha\ < 1\) per calcolare il prodotto scalare come \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Per comprendere meglio in che modo la lunghezza del vettore cambia la misura di somiglianza, normalizza la lunghezza del vettore è pari a 1 e si nota che le tre misure diventano proporzionali l'uno con l'altro.

Prova: proporzionalità delle misure di somiglianza
Dopo aver normalizzato a e b in modo che \(||a||=1\) e \(||b||=1\), queste tre misure sono correlate come:
    .
  • Distanza euclidea = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Prodotto punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Coseno = \(\cos(\theta_{ab})\).
Di conseguenza, tutte e tre le misure di somiglianza sono equivalenti in quanto proporzionale a \(cos(\theta_{ab})\).

Esame delle misure di somiglianza

Una misura di somiglianza quantifica la somiglianza tra una coppia di di esempio, rispetto ad altre coppie di esempi. I due tipi: manuale e supervisionati, vengono confrontati di seguito:

TipoCome creareIdeale perImplicazioni
ManualeCombina manualmente i dati delle caratteristiche. Set di dati di piccole dimensioni con caratteristiche facili da combinare. Fornisce informazioni sui risultati dei calcoli delle somiglianze. Se l'elemento modifiche ai dati, devi aggiornare manualmente la misura di somiglianza.
SupervisionatoMisura la distanza tra gli incorporamenti generati da e un DNN supervisionato. Set di dati di grandi dimensioni con caratteristiche difficili da combinare. Non fornisce insight sui risultati. Tuttavia, una DNN può adattarsi automaticamente alla modifica dei dati delle caratteristiche.