Medición de la similitud de las incorporaciones

Ahora tienes incorporaciones para cualquier par de ejemplos. Una medida de similitud supervisada toma estas incorporaciones y muestra un número que mide su similitud. Recuerda que las incorporaciones son vectores de números. Para encontrar la similitud entre dos vectores A=[a1,a2,...,an] y B=[b1,b2,...,bn], elige una de estas tres medidas de similitud:

MedirSignificadoFormula A medida que aumenta la similitud, esta medida hace lo siguiente:
Distancia euclidianaDistancia entre los extremos de los vectores (a1b1)2+(a2b2)2+...+(aNbN)2 Disminuye
CosenoCoseno del ángulo θ entre vectores aTb|a||b| Aumenta
Producto puntoEl coseno multiplicado por las longitudes de ambos vectores a1b1+a2b2+...+anbn =|a||b|cos(θ) Aumenta. También aumenta con la longitud de los vectores.

Elige una medida de similitud

A diferencia del coseno, el producto punto es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en el conjunto de entrenamiento (por ejemplo, videos populares de YouTube) suelen tener vectores de incorporación con longitudes grandes. Si deseas captar la popularidad, elige el producto punto. Sin embargo, el riesgo es que los ejemplos populares puedan sesgar la métrica de similitud. Para equilibrar esta distorsión, puedes elevar la longitud a un exponente α <1 para calcular el producto escalar como |a|α|b|αcos(θ).

Para comprender mejor cómo la longitud del vector cambia la medida de similitud, normaliza las longitudes de los vectores a 1 y observa que las tres medidas se vuelven proporcionales entre sí.

Prueba: Proporcionalidad de las medidas de similitud
Después de normalizar a y b de modo que ||a||=1 y ||b||=1, estas tres medidas se relacionan de la siguiente manera:
  • Distancia euclidiana = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • Producto punto = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • Coseno = cos(θab).
Por lo tanto, las tres medidas de similitud son equivalentes porque son proporcionales a cos(θab).

Revisión de las medidas de similitud

Una medida de similitud cuantifica la similitud entre un par de ejemplos en relación con otros pares de ejemplos. A continuación, se comparan los dos tipos, manual y supervisado:

TipoCómo crearIdeal paraImplicaciones
ManualCombinar datos de componentes de forma manual Conjuntos de datos pequeños con funciones fáciles de combinar. Proporciona estadísticas sobre los resultados de los cálculos de similitud. Si cambian los datos de las funciones, debes actualizar manualmente la medida de similitud.
SupervisadoMide la distancia entre las incorporaciones generadas por una DNN supervisada. Conjuntos de datos grandes con funciones difíciles de combinar No proporciona estadísticas sobre los resultados. Sin embargo, una DNN puede adaptarse automáticamente a los cambios en los datos de atributos.