Ao montar um conjunto de treinamento, às vezes é preciso mesclar várias fontes de dados.
Tipos de registro
É possível trabalhar com qualquer um dos seguintes tipos de dados de entrada:
- registros transacionais
- dados do atributo
- estatísticas agregadas
Os registros transacionais registram um evento específico. Por exemplo, um registro transacional pode gravar um endereço IP fazendo uma consulta e a data e hora em que ela foi feita. Os eventos transacionais correspondem a um evento específico.
Os dados do atributo contêm resumos das informações. Exemplo:
- informações demográficas do usuário
- histórico de pesquisa no momento da consulta
Os dados de atributo não são específicos a um evento ou um momento específico, mas ainda podem ser úteis para fazer previsões. Para tarefas de previsão não vinculadas a um evento específico (por exemplo, a previsão de desligamento de usuários, que envolve um intervalo de tempo em vez de um momento individual), os dados de atributos podem ser o único tipo de dados.
Os dados de atributos e os registros transacionais estão relacionados. Por exemplo, é possível criar um tipo de dados de atributo agregando vários registros transacionais, criando estatísticas agregadas. Nesse caso, é possível analisar vários registros transacionais e criar um único atributo para um usuário.
As estatísticas agregadas criam um atributo de vários registros transacionais. Exemplo:
- frequência das consultas dos usuários
- taxa de cliques média de um determinado anúncio
Como mesclar origens de registros
Cada tipo de registro tende a estar em um local diferente. Ao coletar dados para seu modelo de machine learning, é preciso unir fontes diferentes para criar o conjunto de dados. Alguns exemplos:
- Aproveite o ID e o carimbo de data/hora do usuário em registros transacionais para procurar atributos do usuário no momento do evento.
- Use o carimbo de data/hora da transação para selecionar o histórico de pesquisa no momento da consulta.
Fontes de dados de previsão — on-line x off-line
No Curso intensivo de machine learning (em inglês), você aprendeu sobre a exibição on-line e off-line. A escolha influencia como seu sistema coleta dados da seguinte maneira:
- on-line: a latência é um problema, então o sistema precisa gerar entrada rapidamente.
- off-line: provavelmente você não tem restrições de computação. Por isso, pode fazer operações complexas como a geração de dados de treinamento.
Por exemplo, os dados de atributos geralmente precisam ser procurados em outro sistema, o que poderia introduzir preocupações sobre latência. Da mesma forma, a computação de estatísticas agregadas pode ser cara em tempo real para o cálculo. Se a latência for um obstáculo, é possível pré-calcular essas estatísticas.