Como mesclar registros de dados

Ao montar um conjunto de treinamento, às vezes é preciso mesclar várias fontes de dados.

Tipos de registro

É possível trabalhar com qualquer um dos seguintes tipos de dados de entrada:

registros transacionais
dados do atributo
estatísticas agregadas

Os registros transacionais registram um evento específico. Por exemplo, um registro transacional pode gravar um endereço IP fazendo uma consulta e a data e hora em que ela foi feita. Os eventos transacionais correspondem a um evento específico.

Os dados do atributo contêm resumos das informações. Exemplo:

informações demográficas do usuário
histórico de pesquisa no momento da consulta

Os dados de atributo não são específicos a um evento ou um momento específico, mas ainda podem ser úteis para fazer previsões. Para tarefas de previsão não vinculadas a um evento específico (por exemplo, a previsão de desligamento de usuários, que envolve um intervalo de tempo em vez de um momento individual), os dados de atributos podem ser o único tipo de dados.

Os dados de atributos e os registros transacionais estão relacionados. Por exemplo, é possível criar um tipo de dados de atributo agregando vários registros transacionais, criando estatísticas agregadas. Nesse caso, é possível analisar vários registros transacionais e criar um único atributo para um usuário.

As estatísticas agregadas criam um atributo de vários registros transacionais. Exemplo:

frequência das consultas dos usuários
taxa de cliques média de um determinado anúncio

Como mesclar origens de registros

Cada tipo de registro tende a estar em um local diferente. Ao coletar dados para seu modelo de machine learning, é preciso unir fontes diferentes para criar o conjunto de dados. Alguns exemplos:

Aproveite o ID e o carimbo de data/hora do usuário em registros transacionais para procurar atributos do usuário no momento do evento.
Use o carimbo de data/hora da transação para selecionar o histórico de pesquisa no momento da consulta.

Fontes de dados de previsão — on-line x off-line

No Curso intensivo de machine learning (em inglês), você aprendeu sobre a exibição on-line e off-line. A escolha influencia como seu sistema coleta dados da seguinte maneira:

on-line: a latência é um problema, então o sistema precisa gerar entrada rapidamente.
off-line: provavelmente você não tem restrições de computação. Por isso, pode fazer operações complexas como a geração de dados de treinamento.

Por exemplo, os dados de atributos geralmente precisam ser procurados em outro sistema, o que poderia introduzir preocupações sobre latência. Da mesma forma, a computação de estatísticas agregadas pode ser cara em tempo real para o cálculo. Se a latência for um obstáculo, é possível pré-calcular essas estatísticas.

Tamanho e qualidade de um conjunto de dados

Origens de rótulos