Antes de criar vetores de atributo, recomendamos estudar os dados numéricos duas maneiras:
- Visualize seus dados em gráficos.
- Obtenha estatísticas sobre seus dados.
Visualize seus dados
Os gráficos podem ajudar a encontrar anomalias ou padrões ocultos nos dados. Portanto, antes de se aprofundar na análise, observe seu os dados graficamente, como gráficos de dispersão ou histogramas. Mostrar gráficos não apenas no início do pipeline de dados, mas também ao longo transformações de dados. As visualizações o ajudam a verificar continuamente suas suposições.
Recomendamos trabalhar com o Pandas para visualização:
Algumas ferramentas de visualização são otimizadas para determinados formatos de dados. Uma ferramenta de visualização que ajuda a avaliar buffers de protocolo pode ou não para avaliar os dados CSV.
Avaliar os dados estatisticamente
Além da análise visual, também recomendamos avaliar possíveis recursos e rótulos matematicamente, reunindo estatísticas básicas como:
- média e mediana
- desvio padrão
- os valores nas divisões do quartil: 0, 25, 50, 75 e 100 percentis. O percentil 0 é o valor mínimo desta coluna. as O 100o percentil é o valor máximo desta coluna. (O percentil de 50% é a mediana.)
Encontrar outliers
Um outlier é um valor distante da maioria dos outros valores em um atributo ou rótulo. Outliers costumam causar problemas no treinamento de modelo, então é importante encontrar outliers.
Quando o delta entre os percentis 0 e 25 difere significativamente do delta entre os percentis 75 e 100, o conjunto de dados provavelmente que contém outliers.
Os outliers podem se enquadrar em qualquer uma das seguintes categorias:
- O outlier se deve a um erro. Por exemplo, talvez um experimentador tenha inserido um zero a mais por engano, ou talvez um instrumento que coleta dados não esteja funcionando. Geralmente, você exclui exemplos que contêm outliers de erro.
- O outlier é um ponto de dados legítimo, e não é um erro.
Nesse caso, seu modelo treinado
precisa inferir boas previsões sobre esses outliers?
- Em caso afirmativo, mantenha esses outliers no seu conjunto de treinamento. Afinal, os outliers em determinados atributos, às vezes espelham outliers no rótulo. os valores atípicos podem ajudar o modelo a fazer previsões melhores. Cuidado: outliers extremos ainda podem prejudicar o modelo.
- Em caso negativo, exclua os outliers ou aplique engenharia de atributos mais invasiva técnicas, como clipping.