Misurazione della somiglianza dagli incorporamenti

Ora hai gli embedding per qualsiasi coppia di esempi. Una misura della somiglianza supervisionata prende questi incorporamenti e restituisce un numero che ne misura la somiglianza. Ricorda che gli embedding sono vettori di numeri. Per trovare la somiglianza tra due vettori A=[a1,a2,...,an] e B=[b1,b2,...,bn], scegli una di queste tre misure di somiglianza:

MisuraSignificatoFormula Man mano che la somiglianza aumenta, questa misura...
Distanza euclideaDistanza tra le estremità dei vettori (a1b1)2+(a2b2)2+...+(aNbN)2 Diminuisce
CosenoCoseno dell'angolo θ tra vettori aTb|a||b| Aumenta
Prodotto scalareIl coseno moltiplicato per le lunghezze di entrambi i vettori a1b1+a2b2+...+anbn =|a||b|cos(θ) Aumenta. Aumenta anche con la lunghezza dei vettori.

Scegliere una misura di somiglianza

A differenza del coseno, il prodotto scalare è proporzionale alla lunghezza del vettore. Questo è importante perché gli esempi che compaiono molto spesso nell'insieme di addestramento (ad esempio i video di YouTube più popolari) tendono ad avere vettori di embedding di lunghezze elevate. Se vuoi acquisire popolarità, scegli il prodotto in punto. Tuttavia, il rischio è che gli esempi più popolari possano distorcere la metrica di somiglianza. Per bilanciare questo scostamento, puoi elevare la lunghezza a un esponente α <1 per calcolare il prodotto scalare |a|α|b|αcos(θ).

Per comprendere meglio in che modo la lunghezza del vettore modifica la misura della somiglianza, normalizza le lunghezze dei vettori a 1 e nota che le tre misure diventano proporzionali tra loro.

Prova: proporzionalità delle misure di somiglianza
Dopo aver normalizzato a e b in modo che ||a||=1 e ||b||=1, queste tre misure sono correlate come segue:
  • Distanza euclidea = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • Prodotto scalare = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • Coseno = cos(θab).
Pertanto, tutte e tre le misure di somiglianza sono equivalenti perché sono proporzionali a cos(θab).

Revisione delle misure di somiglianza

Una misura della somiglianza quantifica la somiglianza tra una coppia di esempi rispetto ad altre coppie di esempi. I due tipi, manuale e supervisionato, sono confrontati di seguito:

TipoCome creareIdeale perImplicazioni
ManualeCombina manualmente i dati delle funzionalità. Set di dati di piccole dimensioni con funzionalità facili da combinare. Fornisce informazioni sui risultati dei calcoli di somiglianza. Se i dati delle funzionalità cambiano, devi aggiornare manualmente la misura della somiglianza.
SupervisionatoMisura la distanza tra gli embedding generati da una rete neurale a doppia espansione supervisionata. Set di dati di grandi dimensioni con funzionalità difficili da combinare. Non fornisce informazioni sui risultati. Tuttavia, una rete neurale di tipo DNN può adattarsi automaticamente ai dati delle funzionalità in evoluzione.