A coleta de dados é a etapa mais importante na solução de qualquer problema de machine learning supervisionado. Seu classificador de texto só pode ser tão bom quanto o conjunto de dados de que ele foi criado.
Se você não tem um problema específico que queira resolver e está interessado apenas em explorar a classificação de texto em geral, há muitos conjuntos de dados de código aberto disponíveis. Você encontra links para alguns deles no nosso repositório do GitHub. Por outro lado, se você estiver enfrentando um problema específico, precisará coletar os dados necessários. Muitas organizações fornecem APIs públicas para acessar dados, por exemplo, a API X ou a API NY Times. Você pode aproveitar essas APIs para o problema que está tentando resolver.
Veja alguns pontos importantes para a coleta de dados:
- Se você estiver usando uma API pública, entenda as limitações da API antes de usá-la. Por exemplo, algumas APIs definem um limite para a taxa em que é possível fazer consultas.
- Quanto mais exemplos de treinamento (chamados de amostras no restante deste guia) você tiver, melhor. Isso ajudará a generalizar melhor o modelo.
- Confira se o número de amostras de cada classe ou tópico não está desequilibrado demais. Ou seja, você precisa ter um número comparável de amostras em cada classe.
- Verifique se as amostras cobrem adequadamente o espaço de entradas possíveis, não apenas os casos comuns.
Neste guia, usaremos o conjunto de dados de resenhas de filmes do Internet Movie Database (IMDb) para ilustrar o fluxo de trabalho. Esse conjunto de dados contém avaliações de filmes postadas por pessoas no site do IMDb, bem como os rótulos correspondentes ("positivo" ou "negativo") que indicam se o avaliador gostou do filme ou não. Este é um exemplo clássico de um problema de análise de sentimento.