Descripción general de la generación de candidatos

La generación de candidatos es la primera etapa de la recomendación. Dada una consulta, el genera un conjunto de candidatos relevantes. En la siguiente tabla, se muestran dos enfoques comunes de generación de candidatos:

TipoDefiniciónEjemplo
filtrado basado en el contenido Usa la similitud entre elementos para recomendar elementos similares a lo que le gusta al usuario. Si el usuario A mira dos videos tiernos de gatos, el sistema puede recomendar videos tiernos de animales a ese usuario.
filtrado colaborativo Usa las similitudes entre consultas y elementos de forma simultánea para proporcionar recomendaciones. Si el usuario A es similar al usuario B y al usuario B le gusta el video 1, el sistema puede recomendar el video 1 al usuario A (incluso si el usuario A no vio ningún video similar al video 1).

Espacio de incorporación

Tanto el filtrado basado en el contenido como el filtrado colaborativo asignan cada elemento y cada consulta. (o contexto) a un vector de incorporación en un espacio de incorporación común \(E = \mathbb R^d\)Por lo general, el espacio de incorporación es de baja dimensión (es decir, \(d\) es mucho más pequeño que el tamaño del corpus) y capta alguna estructura latente del elemento o conjunto de consultas. Elementos similares, como YouTube Los videos que suele mirar el mismo usuario terminan juntos en espacio de incorporaciones. La noción de "cercanía" se define mediante una medida de similitud.

Medidas de similitud

Una medida de similitud es una función \(s : E \times E \to \mathbb R\) que toma un par de incorporaciones y devuelve un escalar que mide su similitud. Las incorporaciones se pueden usar para la generación de candidatos de la siguiente manera: incorporación de consultas \(q \in E\), el sistema busca incorporaciones de elementos \(x \in E\) que se encuentren cerca de \(q\), es decir, las incorporaciones con alta similitud \(s(q, x)\).

Para determinar el grado de similitud, la mayoría de los sistemas de recomendación se basan en uno o más de los siguientes:

  • coseno
  • producto punto
  • Distancia euclidiana

Coseno

Esto es simplemente el coseno del ángulo entre los dos vectores, \(s(q, x) = \cos(q, x)\)

Producto punto

El producto escalar de dos vectores es \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) También viene dado por \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (el coseno de la multiplicado por el producto de las normas). Por lo tanto, si las incorporaciones normalizado, entonces el producto punto y el coseno coinciden.

Distancia euclidiana

Esta es la distancia habitual en caracteres euclidianos espacio, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). Una distancia menor significa una mayor similitud. Ten en cuenta que cuando las incorporaciones la distancia euclidiana al cuadrado coincide con un producto punto (y coseno) hasta una constante, ya que en ese caso \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

Imagen en la que se muestra un espacio de incorporación bidimensional, que contiene una incorporación de consulta y tres elementos candidatos.

Comparar medidas de similitud

Considera el ejemplo de la figura de la derecha. El vector negro ilustra el la incorporación de consultas. Los otros tres vectores de incorporación (Elemento A, Elemento B, Elemento C) representar elementos candidatos. Según la medida de similitud utilizada, el la clasificación de los elementos puede ser diferente.

Con la imagen, intenta determinar la clasificación de los elementos con los tres medidas de similitud: coseno, producto punto y distancia euclidiana.

¿Qué medida de similitud?

En comparación con el coseno, la similitud del producto punto es sensible a la norma de la incorporación. Es decir, cuanto más amplia sea la norma incorporación, mayor será la similitud (para elementos con un ángulo agudo) y es más probable que se recomiende el elemento. Esto puede afectar recomendaciones de la siguiente manera:

  • Elementos que aparecen con mucha frecuencia en el conjunto de entrenamiento (por ejemplo, videos populares en YouTube) tienden a tener incorporaciones con normas estrictas. Si lo ideal es capturar información de popularidad, prefieren producto punto. Sin embargo, si no tienes cuidado, las apps o los artículos pueden terminar dominando las recomendaciones. En la práctica, puedes usar otras variantes de medidas de similitud que ponen menos énfasis según la norma del elemento. Por ejemplo, define \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) para algún \(\alpha \in (0, 1)\).

  • Es posible que los elementos que aparecen en muy pocas ocasiones no se actualicen con frecuencia durante capacitación. En consecuencia, si se inicializan con una norma grande, el sistema puede recomendar elementos raros en lugar de elementos más relevantes. Para evitar esto, ten cuidado con la incorporación de la inicialización y usa las regularización. Detallaremos este problema en el primer ejercicio.