Como identificar marcadores e fontes

Rótulos diretos x derivados

O machine learning é mais fácil quando os rótulos estão bem definidos. O melhor é o rótulo direto do que você quer prever. Por exemplo, se você quiser prever se um usuário é um fã de Taylor Swift, um rótulo direto seria "User é um fã de Taylor Swift."

Um teste mais simples de fantasia pode ser se o usuário assistiu a um vídeo de Taylor Swift no YouTube. O rótulo "O usuário assistiu a um vídeo do Taylor Swift no YouTube" é um rótulo derivado porque não mede diretamente o que você quer prever. O rótulo derivado é um indicador confiável de que o usuário gosta de Taylor Swift? O modelo só será tão bom quanto a conexão entre o rótulo derivado e a previsão desejada.

Origens de rótulos

A saída do seu modelo pode ser um evento ou um atributo. Isso resulta nos dois tipos de rótulos a seguir:

  • Rótulo direto para eventos, como "O usuário clicou no primeiro resultado da pesquisa?"
  • Rótulo direto para atributos, como "O anunciante gastará mais de US $X na próxima semana?"

Rótulos diretos para eventos

Em eventos, os identificadores diretos costumam ser simples, porque é possível registrar o comportamento do usuário durante o evento para usar como rótulo. Ao rotular eventos, faça as seguintes perguntas:

  • Como seus registros são estruturados?
  • O que é considerado um “evento” nos seus registros?

Por exemplo, o sistema registra um usuário que clica em um resultado de pesquisa ou quando um usuário faz uma pesquisa? Se você tem registros de clique, saiba que nunca verá uma impressão sem clique. É necessário ter registros em que os eventos são impressões. Portanto, você cobre todos os casos em que um usuário vê um resultado da pesquisa principal.

Rótulos diretos para atributos

Digamos que seu rótulo seja "O anunciante vai gastar mais de US $X na próxima semana". Normalmente, você usa os dados dos dias anteriores para prever o que acontecerá nos dias seguintes. Por exemplo, a ilustração a seguir mostra os 10 dias de dados de treinamento que preveem os sete dias seguintes:

Agenda destacando um bloco de 10 dias seguido por um bloqueio de 7 dias.
O modelo usa dados do bloco de 10 dias para fazer previsões no bloco de 7 dias.

Considere a sazonalidade ou os efeitos cíclicos. Por exemplo, os anunciantes podem gastar mais nos fins de semana. Por isso, prefira usar uma janela de 14 dias ou a data como um recurso para que o modelo aprenda efeitos anuais.

Os marcadores diretos precisam de registros de comportamento passado

Nos casos anteriores, notamos que precisávamos de dados sobre o resultado real. Precisávamos de quanto os anunciantes gastavam ou de quais usuários assistiam a vídeos de Taylor Swift, precisávamos de dados históricos para usar o aprendizado de máquina supervisionado. O machine learning faz previsões com base no que já aconteceu, portanto, se você não tem registros do passado, precisa obtê-los.

E se você não tiver dados para registrar?

Talvez seu produto ainda não exista. Por isso, você não tem dados para registrar. Nesse caso, é possível realizar uma ou mais das seguintes ações:

  • Usar uma heurística para um primeiro lançamento e depois treinar um sistema com base em dados registrados.
  • Use registros de um problema semelhante para inicializar seu sistema.
  • Use avaliadores humanos para gerar dados concluindo tarefas.

Por que usar dados com rótulos humanos?

Há vantagens e desvantagens no uso de dados rotulados por humanos.

Vantagens

  • Os avaliadores humanos podem realizar diversas tarefas.
  • Os dados forçam você a ter uma definição clara de problema.

Desvantagens

  • Os dados são caros para determinados domínios.
  • Normalmente, bons dados exigem várias iterações.

Melhorar a qualidade

Sempre verifique o trabalho dos seus avaliadores humanos. Por exemplo, rotule 1.000 exemplos por conta própria e veja como os resultados correspondem aos avaliadores' Marcar dados por conta própria também é um ótimo exercício para conhecer os dados. Se houver discrepâncias, não presuma que suas classificações sejam corretas, especialmente se houver o julgamento do valor. Se os avaliadores humanos tiverem apresentado erros, considere adicionar instruções para ajudar e tentar novamente.

Analisar seus dados manualmente é um bom exercício, independentemente de como você conseguir os dados. Andrej Karpathy fez isso no ImageNet e escreveu sobre a experiência.