Ahora tienes incorporaciones para cualquier par de ejemplos. Una similitud supervisada toma estas incorporaciones y devuelve un número que mide su similitud. Recuerda que las incorporaciones son vectores de números. Para encontrar la similitud entre dos vectores \(A = [a_1,a_2,...,a_n]\) y \(B = [b_1,b_2,...,b_n]\), elige una de estas tres medidas de similitud:
Medir | Significado | Formula | A medida que aumenta la similitud, esta medición... |
---|---|---|---|
Distancia euclidiana | Distancia entre los extremos de los vectores | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Disminuye |
Coseno | Coseno de un ángulo \(\theta\) entre vectores | \(\frac{a^T b}{|a| \cdot |b|}\) | Aumentos |
Producto punto | Coseno multiplicado por las longitudes de ambos vectores | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Aumenta. También aumenta con la longitud de los vectores. |
Elegir una medida de similitud
A diferencia del coseno, el producto escalar es proporcional a la longitud del vector. Esto es importante porque los ejemplos que aparecen con mucha frecuencia en la conjunto (por ejemplo, videos populares de YouTube) tienden a tener vectores de incorporación con grandes longitudes. Si para capturar la popularidad, luego elige el producto punto. Sin embargo, el riesgo es que los ejemplos populares pueden sesgar la métrica de similitud. Para equilibrar este sesgo, puedes eleva la longitud a un exponente \(\alpha\ < 1\) para calcular el producto escalar como \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Para entender mejor cómo la longitud de un vector cambia la medida de similitud, normaliza las longitudes de los vectores a 1 y observa que las tres medidas se vuelven proporcionales entre sí.
- Distancia euclidiana = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Producto de punto = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Coseno = \(\cos(\theta_{ab})\).
Revisión de las medidas de similitud
Una medida de similitud cuantifica la similitud entre un par de ejemplos en relación con otros pares de ejemplos. Los dos tipos, manuales y supervisadas, se comparan a continuación:
Tipo | Cómo crear | Ideal para | Implicaciones |
---|---|---|---|
Manual | Combinar manualmente los datos de los atributos | Conjuntos de datos pequeños con atributos fáciles de combinar. | Proporciona información sobre los resultados de los cálculos de similitud. Si la función cambia los datos, debes actualizar manualmente la medida de similitud. |
Supervisado | Medir la distancia entre las incorporaciones generadas por una DNN supervisada. | Conjuntos de datos grandes con atributos difíciles de combinar. | No proporciona estadísticas sobre los resultados. Sin embargo, una DNN puede adaptarse automáticamente para cambiar datos de atributos. |