Medición de la similitud de las incorporaciones

Ahora tienes incorporaciones para cualquier par de ejemplos. Una similitud supervisada toma estas incorporaciones y devuelve un número que mide su similitud. Recuerda que las incorporaciones son vectores de números. Para encontrar la similitud entre dos vectores \(A = [a_1,a_2,...,a_n]\) y \(B = [b_1,b_2,...,b_n]\), elige una de estas tres medidas de similitud:

MedirSignificadoFormula A medida que aumenta la similitud, esta medición...
Distancia euclidianaDistancia entre los extremos de los vectores \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Disminuye
CosenoCoseno de un ángulo \(\theta\) entre vectores \(\frac{a^T b}{|a| \cdot |b|}\) Aumentos
Producto puntoCoseno multiplicado por las longitudes de ambos vectores \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Aumenta. También aumenta con la longitud de los vectores.

Elegir una medida de similitud

A diferencia del coseno, el producto escalar es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en la conjunto (por ejemplo, videos populares de YouTube) tienden a tener vectores de incorporación con grandes longitudes. Si para capturar la popularidad, luego elige el producto punto. Sin embargo, el riesgo es que los ejemplos populares pueden sesgar la métrica de similitud. Para equilibrar este sesgo, puedes eleva la longitud a un exponente \(\alpha\ < 1\) para calcular el producto escalar como \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Para entender mejor cómo la longitud de un vector cambia la medida de similitud, normaliza las longitudes de los vectores a 1 y observa que las tres medidas se vuelven proporcionales entre sí.

Prueba: Proporcionalidad de las medidas de similitud
Después de normalizar a y b de modo que \(||a||=1\) y \(||b||=1\), estas tres mediciones están relacionadas de la siguiente manera:
  • Distancia euclidiana = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Producto de punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Coseno = \(\cos(\theta_{ab})\).
Por lo tanto, las tres medidas de similitud son equivalentes porque son proporcional a \(cos(\theta_{ab})\).

Revisión de las medidas de similitud

Una medida de similitud cuantifica la similitud entre un par de ejemplos en relación con otros pares de ejemplos. Los dos tipos, manuales y supervisadas, se comparan a continuación:

TipoCómo crearIdeal paraImplicaciones
ManualCombinar manualmente los datos de los atributos Conjuntos de datos pequeños con atributos fáciles de combinar. Proporciona información sobre los resultados de los cálculos de similitud. Si la función cambia los datos, debes actualizar manualmente la medida de similitud.
SupervisadoMedir la distancia entre las incorporaciones generadas por una DNN supervisada. Conjuntos de datos grandes con atributos difíciles de combinar. No proporciona estadísticas sobre los resultados. Sin embargo, una DNN puede adaptarse automáticamente para cambiar datos de atributos.