A integridade de um modelo de machine learning (ML) é determinada pelos dados dele. Alimente seu modelar dados saudáveis e ele vai prosperar; alimentar o lixo do seu modelo previsões serão inúteis.
Práticas recomendadas para trabalhar com dados numéricos:
- Lembre-se de que o modelo de ML interage com os dados no vetor de atributos, não com os dados no conjunto de dados.
- Normalizar a maioria dos recursos numéricos.
- Se a primeira estratégia de normalização não funcionar, considere uma maneira diferente de normalizar os dados.
- Às vezes, o binário, também conhecido como bucketing, é melhor do que a normalização.
- Considerando a aparência ideal dos dados, escreva testes de verificação
para validar essas expectativas. Por exemplo:
- O valor absoluto da latitude nunca deve exceder 90. Você pode escrever um teste para verificar se um valor de latitude maior que 90 aparece nos seus dados.
- Se seus dados forem restritos ao estado da Flórida, você poderá escrever testes para verificar se as latitudes estão entre 24 e 31.
- Visualize seus dados com gráficos de dispersão e histogramas. Procure e anomalias.
- Reunir estatísticas não apenas em todo o conjunto de dados, mas também em partes menores subconjuntos do conjunto de dados. Isso ocorre porque as estatísticas agregadas às vezes ocultar problemas em seções menores de um conjunto de dados.
- Documente todas as transformações de dados.
Os dados são seu recurso mais valioso, então trate-os com cuidado.
Mais informações
- O guia Regras de aprendizado de máquina (em inglês) contém uma seção valiosa sobre engenharia de atributos.
A seguir
Parabéns por concluir este módulo!
Recomendamos que você explore os vários módulos do MLCC no seu próprio ritmo e interesse. Se você quiser seguir a ordem recomendada, sugerimos que passe para o próximo módulo: Representação de dados categóricos.