Vantagens e desvantagens da filtragem colaborativa: desvantagens

Vantagens

Não é necessário nenhum conhecimento sobre o domínio

Não precisamos de conhecimento do domínio porque os embeddings são aprendidos automaticamente.

Serendipidade

O modelo pode ajudar os usuários a descobrir novos interesses. Isoladamente, o sistema de ML pode não saber que o usuário tem interesse em um determinado item, mas o modelo ainda pode recomendá-lo porque usuários semelhantes têm interesse nesse item.

Ponto de partida excelente

Até certo ponto, o sistema precisa apenas da matriz de feedback para treinar um modelo de fatoração de matriz. Em particular, o sistema não precisa de recursos contextuais. Na prática, ele pode ser usado como um dos vários geradores candidatos.

Desvantagens

Não processa itens novos

A previsão do modelo para determinado par (usuário, item) é o produto de ponto dos embeddings correspondentes. Portanto, se um item não for visto durante o treinamento, o sistema não poderá criar um embedding para ele e não poderá consultar o modelo com esse item. O problema geralmente é chamado de problema de inicialização a frio. No entanto, as seguintes técnicas podem resolver o problema de inicialização a frio:

  • Projeção usando WALS. Considerando um novo item \(i_0\) que não foi visto no treinamento, se o sistema tiver algumas interações com os usuários, ele poderá calcular facilmente uma incorporação \(v_{i_0}\) desse item, sem precisar treinar todo o modelo. O sistema precisa apenas resolver a seguinte equação ou a versão ponderada:

    \[\min_{v_{i_0} \in \mathbb R^d} \|A_{i_0} - U v_{i_0}\|\]

    A equação anterior corresponde a uma iteração no WALS: os embeddings de usuários são mantidos fixos e o sistema resolve para a incorporação do item \(i_0\). O mesmo pode ser feito para um novo usuário.

  • Heurística para gerar embeddings de itens novos. Se o sistema não tiver interações, ele poderá aproximar a incorporação em média dos embeddings de itens da mesma categoria, do mesmo usuário que fez o envio (no YouTube) e assim por diante.

É difícil incluir recursos secundários para consulta/item

Os recursos secundários são quaisquer recursos além do ID da consulta ou do item. Para recomendações de filmes, os recursos adicionais podem incluir país ou idade. A inclusão de recursos secundários disponíveis melhora a qualidade do modelo. Embora talvez não seja fácil incluir recursos secundários no WALS, Uma generalização do WALS permite isso.

Para generalizar o WALS, aumente a matriz de entrada com recursos definindo uma matriz de bloqueio \(\bar A\), em que:

  • Bloco (0, 0) é a matriz de feedback original \(A\).
  • Block (0, 1) é uma codificação multi-hot dos recursos do usuário.
  • Block (1, 0) é uma codificação multi-hot dos recursos do item.