Se usó la API de Cloud Translation para traducir esta página.

Medición de la similitud de las incorporaciones

Ahora tienes incorporaciones para cualquier par de ejemplos. Una medida de similitud supervisada toma estas incorporaciones y muestra un número que mide su similitud. Recuerda que las incorporaciones son vectores de números. Para encontrar la similitud entre dos vectores \(A = [a_1,a_2,...,a_n]\) y \(B = [b_1,b_2,...,b_n]\), elige una de estas tres medidas de similitud:

Medir	Significado	Formula	A medida que aumenta la similitud, esta medida hace lo siguiente:
Distancia euclidiana	Distancia entre los extremos de los vectores	\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\)	Disminuye
Coseno	Coseno del ángulo \(\theta\) entre vectores	\(\frac{a^T b}{\|a\| \cdot \|b\|}\)	Aumenta
Producto punto	El coseno multiplicado por las longitudes de ambos vectores	\(a_1b_1+a_2b_2+...+a_nb_n\) \(=\|a\|\|b\|cos(\theta)\)	Aumenta. También aumenta con la longitud de los vectores.

Elige una medida de similitud

A diferencia del coseno, el producto punto es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en el conjunto de entrenamiento (por ejemplo, videos populares de YouTube) suelen tener vectores de incorporación con longitudes grandes. Si deseas captar la popularidad, elige el producto punto. Sin embargo, el riesgo es que los ejemplos populares puedan sesgar la métrica de similitud. Para equilibrar esta distorsión, puedes elevar la longitud a un exponente \(\alpha\ < 1\) para calcular el producto escalar como \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Para comprender mejor cómo la longitud del vector cambia la medida de similitud, normaliza las longitudes de los vectores a 1 y observa que las tres medidas se vuelven proporcionales entre sí.

Prueba: Proporcionalidad de las medidas de similitud

Después de normalizar a y b de modo que \(||a||=1\) y \(||b||=1\), estas tres medidas se relacionan de la siguiente manera:

Distancia euclidiana = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
Producto punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
Coseno = \(\cos(\theta_{ab})\).

Por lo tanto, las tres medidas de similitud son equivalentes porque son proporcionales a \(cos(\theta_{ab})\).

Revisión de las medidas de similitud

Una medida de similitud cuantifica la similitud entre un par de ejemplos en relación con otros pares de ejemplos. A continuación, se comparan los dos tipos, manual y supervisado:

Tipo	Cómo crear	Ideal para	Implicaciones
Manual	Combinar datos de componentes de forma manual	Conjuntos de datos pequeños con funciones fáciles de combinar.	Proporciona estadísticas sobre los resultados de los cálculos de similitud. Si cambian los datos de las funciones, debes actualizar manualmente la medida de similitud.
Supervisado	Mide la distancia entre las incorporaciones generadas por una DNN supervisada.	Conjuntos de datos grandes con funciones difíciles de combinar	No proporciona estadísticas sobre los resultados. Sin embargo, una DNN puede adaptarse automáticamente a los cambios en los datos de atributos.

Codificadores automáticos, incorporaciones y predictores

Verifica tu comprensión

Medición de la similitud de las incorporaciones Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Elige una medida de similitud

Revisión de las medidas de similitud

Medición de la similitud de las incorporaciones