Ahora tienes incorporaciones para cualquier par de ejemplos. Una medida de similitud toma estas incorporaciones y muestra un número que mide su similitud. Recuerda que las incorporaciones son solo vectores de números. Para encontrar la similitud entre dos vectores \(A = [a_1,a_2,...,a_n]\) y \(B = [b_1,b_2,...,b_n]\), puedes elegir entre tres medidas de similitud, que se indican en la siguiente tabla:
Medición | Significado | Formula | Relación con la creciente similitud |
---|---|---|---|
Distancia euclidiana | Distancia entre extremos de los vectores | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Disminuciones |
Coseno | Coseno de ángulo \(\theta\) entre vectores | \(\frac{a^T b}{|a| \cdot |b|}\) | Aumentos |
Punto de producto | Coseno multiplicado por la longitud de ambos vectores | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Aumenta. También aumenta con la longitud de los vectores. |
Cómo elegir una medida de similitud
A diferencia del coseno, el producto escalar es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en el conjunto de entrenamiento (por ejemplo, los videos populares de YouTube) tienden a tener vectores de incorporación con grandes duraciones. Si deseas capturar la popularidad, elige el producto escalar. Sin embargo, el riesgo es que los ejemplos populares puedan sesgar la métrica de similitud. Para equilibrar este sesgo, puedes elevar la longitud a un exponente \(\alpha\ < 1\) a fin de calcular el producto escalar como \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Para comprender mejor cómo la longitud del vector cambia la medida de similitud, normaliza las longitudes vectoriales a 1 y observa que las tres medidas se vuelven proporcionales entre sí.
- Distancia euclidiana = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Coseno = \(\cos(\theta_{ab})\).