Medición de similitud de las incorporaciones

Ahora tienes incorporaciones para cualquier par de ejemplos. Una medida de similitud toma estas incorporaciones y muestra un número que mide su similitud. Recuerda que las incorporaciones son solo vectores de números. Para encontrar la similitud entre dos vectores \(A = [a_1,a_2,...,a_n]\) y \(B = [b_1,b_2,...,b_n]\), puedes elegir entre tres medidas de similitud, que se indican en la siguiente tabla:

MediciónSignificadoFormulaRelación con la creciente similitud
Distancia euclidianaDistancia entre extremos de los vectores \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Disminuciones
CosenoCoseno de ángulo \(\theta\) entre vectores \(\frac{a^T b}{|a| \cdot |b|}\) Aumentos
Punto de productoCoseno multiplicado por la longitud de ambos vectores \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Aumenta. También aumenta con la longitud de los vectores.

Cómo elegir una medida de similitud

A diferencia del coseno, el producto escalar es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en el conjunto de entrenamiento (por ejemplo, los videos populares de YouTube) tienden a tener vectores de incorporación con grandes duraciones. Si deseas capturar la popularidad, elige el producto escalar. Sin embargo, el riesgo es que los ejemplos populares puedan sesgar la métrica de similitud. Para equilibrar este sesgo, puedes elevar la longitud a un exponente \(\alpha\ < 1\) a fin de calcular el producto escalar como \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Para comprender mejor cómo la longitud del vector cambia la medida de similitud, normaliza las longitudes vectoriales a 1 y observa que las tres medidas se vuelven proporcionales entre sí.

Prueba: proporcionalidad de las medidas de similitud
Después de normalizar a y b de modo que \(||a||=1\) y \(||b||=1\), estas tres medidas se relacionan de la siguiente manera:
  • Distancia euclidiana = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Coseno = \(\cos(\theta_{ab})\).
Por lo tanto, las tres medidas de similitud son equivalentes porque son proporcionales a \(cos(\theta_{ab})\).