A integridade de um modelo de machine learning (ML) é determinada pelos dados dele. Alimente seu modelar dados saudáveis e ele vai prosperar; alimentar o lixo do seu modelo previsões serão inúteis.
Práticas recomendadas para trabalhar com dados numéricos:
- Lembre-se de que o modelo de ML interage com os dados do vetor de atributo, não os dados conjunto de dados.
- Normalizar mais recursos numéricos.
- Se sua primeira estratégia de normalização não der certo, considere uma estratégia de normalizar os dados.
- Agrupamento por classes, também conhecido como O agrupamento por classes, às vezes, é melhor do que a normalização.
- Considerando como devem os dados, escreva a verificação
e testes para validar essas expectativas. Por exemplo:
- O valor absoluto da latitude nunca deve exceder 90. É possível escrever um para verificar se um valor de latitude superior a 90 aparece nos seus dados.
- Caso seus dados estejam restritos ao estado da Flórida, crie testes para verificar se as latitudes estão entre 24 e 31.
- Visualize seus dados com gráficos de dispersão e histogramas. Procure e anomalias.
- Reunir estatísticas não apenas em todo o conjunto de dados, mas também em partes menores subconjuntos do conjunto de dados. Isso ocorre porque as estatísticas agregadas às vezes ocultar problemas em seções menores de um conjunto de dados.
- Documente todas as transformações de dados.
Os dados são seu recurso mais valioso, então trate-os com cuidado.
Mais informações
- O guia Regras do machine learning contém um guia Engenharia de atributos.
A seguir
Parabéns por concluir este módulo!
Recomendamos que você explore os vários módulos do MLCC no seu próprio ritmo e interesse. Para seguir um pedido recomendado, sugerimos que você acesse o módulo a seguir: Como representar dados categóricos.