Ahora tienes incorporaciones para cualquier par de ejemplos. Una medida de similitud supervisada toma estas incorporaciones y muestra un número que mide su similitud. Recuerda que las incorporaciones son vectores de números. Para encontrar la similitud entre dos vectores y , elige una de estas tres medidas de similitud:
Medir | Significado | Formula | A medida que aumenta la similitud, esta medida hace lo siguiente: |
---|---|---|---|
Distancia euclidiana | Distancia entre los extremos de los vectores | Disminuye | |
Coseno | Coseno del ángulo entre vectores | Aumenta | |
Producto punto | El coseno multiplicado por las longitudes de ambos vectores | Aumenta. También aumenta con la longitud de los vectores. |
Elige una medida de similitud
A diferencia del coseno, el producto punto es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en el conjunto de entrenamiento (por ejemplo, videos populares de YouTube) suelen tener vectores de incorporación con longitudes grandes. Si deseas captar la popularidad, elige el producto punto. Sin embargo, el riesgo es que los ejemplos populares puedan sesgar la métrica de similitud. Para equilibrar esta distorsión, puedes elevar la longitud a un exponente para calcular el producto escalar como .
Para comprender mejor cómo la longitud del vector cambia la medida de similitud, normaliza las longitudes de los vectores a 1 y observa que las tres medidas se vuelven proporcionales entre sí.
- Distancia euclidiana = .
- Producto punto = .
- Coseno = .
Revisión de las medidas de similitud
Una medida de similitud cuantifica la similitud entre un par de ejemplos en relación con otros pares de ejemplos. A continuación, se comparan los dos tipos, manual y supervisado:
Tipo | Cómo crear | Ideal para | Implicaciones |
---|---|---|---|
Manual | Combinar datos de componentes de forma manual | Conjuntos de datos pequeños con funciones fáciles de combinar. | Proporciona estadísticas sobre los resultados de los cálculos de similitud. Si cambian los datos de las funciones, debes actualizar manualmente la medida de similitud. |
Supervisado | Mide la distancia entre las incorporaciones generadas por una DNN supervisada. | Conjuntos de datos grandes con funciones difíciles de combinar | No proporciona estadísticas sobre los resultados. Sin embargo, una DNN puede adaptarse automáticamente a los cambios en los datos de atributos. |