Vantagens da filtragem colaborativa e desvantagens

Vantagens

Não é necessário ter conhecimento de domínio

Não precisamos de conhecimento do domínio porque os embeddings são aprendidos automaticamente.

Serendipidade

O modelo pode ajudar os usuários a descobrir novos interesses. Isoladamente, o sistema de ML pode sem saber se o usuário está interessado em um determinado item, mas o modelo ainda pode recomendá-lo porque usuários semelhantes estão interessados nesse item.

Ótimo ponto de partida

Até certo ponto, o sistema precisa apenas da matriz de feedback para treinar uma matriz modelo de fatoração. Em particular, o sistema não precisa de recursos contextuais. Na prática, isso pode ser usado como um dos vários geradores de candidatos.

Desvantagens

Não é possível processar novos itens

A previsão do modelo para um determinado par (usuário, item) é o valor dos embeddings correspondentes. Então, se um item não for visto durante o treinamento, o sistema não pode criar um embedding para ele consultar o modelo com esse item. Esse problema é muitas vezes chamado de problema de inicialização a frio. No entanto, as técnicas a seguir podem abordar o problema de inicialização a frio até certo ponto:

  • Projeção no WALS. Dado um novo item \(i_0\) não visto no treinamento, Se o sistema tiver algumas interações com os usuários, ele poderá calcular facilmente uma incorporação \(v_{i_0}\) para esse item sem ter que treinar o modelo inteiro de novo. O sistema só precisa resolver o seguinte ou a versão ponderada:

    \[\min_{v_{i_0} \in \mathbb R^d} \|A_{i_0} - U v_{i_0}\|\]

    A equação anterior corresponde a uma iteração no WALS: o os embeddings do usuário são mantidos fixos, e o sistema resolve o embedding do item \(i_0\). O mesmo pode ser feito para um novo usuário.

  • Heurística para gerar embeddings de novos itens. Se o sistema não tiver interações, o sistema poderá aproximar o embedding Calculando a média dos embeddings de itens da mesma categoria, da mesmo usuário que fez o envio (no YouTube) e assim por diante.

Difícil incluir recursos secundários para consulta/item

Recursos secundários são quaisquer recursos além da consulta ou do código do item. Para filmes as recomendações, os recursos laterais podem incluir país ou idade. Incluindo os atributos laterais disponíveis melhora a qualidade do modelo. Embora pode não ser fácil incluir recursos secundários no WALS, uma generalização do WALS possibilita isso.

Para generalizar o WALS, aumente a matriz de entrada com atributos definindo uma matriz de blocos \(\bar A\), em que:

  • O bloco (0, 0) é a matriz de feedback original \(A\).
  • O bloco (0, 1) é uma codificação multi-hot dos atributos do usuário.
  • O bloco (1, 0) é uma codificação multi-hot dos atributos do item.