Dados numéricos: primeiras etapas

Antes de criar vetores de recursos, recomendamos estudar os dados numéricos de duas maneiras:

  • Visualize seus dados em gráficos ou diagramas.
  • Receber estatísticas sobre seus dados.

Visualize seus dados

Os gráficos podem ajudar a encontrar anomalias ou padrões ocultos nos dados. Portanto, antes de se aprofundar na análise, analise os dados graficamente, como gráficos de dispersão ou histogramas. Confira gráficos não apenas no início do pipeline de dados, mas também durante as transformações de dados. As visualizações ajudam a verificar continuamente suas suposições.

Recomendamos trabalhar com pandas para visualização:

Algumas ferramentas de visualização são otimizadas para determinados formatos de dados. Uma ferramenta de visualização que ajuda a avaliar buffers de protocolo pode ou não ajudar a avaliar dados CSV.

Avaliar os dados estatisticamente

Além da análise visual, também recomendamos avaliar os possíveis recursos e rótulos matematicamente, coletando estatísticas básicas, como:

  • média e mediana
  • desvio padrão
  • os valores nas divisões de quartis: percentis 0, 25, 50, 75 e 100. O percentil 0 é o valor mínimo dessa coluna, e o percentil 100 é o valor máximo. O 50º percentil é a mediana.

Encontrar outliers

Um valor discrepante é um valor distante da maioria dos outros valores em um recurso ou rótulo. Os valores atípicos geralmente causam problemas no treinamento do modelo, então é importante encontrá-los.

Quando a diferença entre o percentil 0 e o 25 é significativamente diferente da diferença entre o 75º e o 100º percentil, o conjunto de dados provavelmente contém valores discrepantes.

Os valores atípicos podem se enquadrar em qualquer uma das seguintes categorias:

  • O valor discrepante é devido a um erro. Por exemplo, talvez um pesquisador tenha inserido um zero extra por engano ou talvez um instrumento que coletou dados tenha apresentado um mau funcionamento. Geralmente, você exclui exemplos com valores discrepantes.
  • O valor discrepante é um ponto de dados legítimo, não um erro. Nesse caso, seu modelo treinado precisa inferir boas previsões com esses valores atípicos?
    • Se sim, mantenha esses valores atípicos no conjunto de treinamento. Afinal, os valores atípicos em determinados atributos às vezes refletem os valores atípicos no rótulo. Portanto, eles podem ajudar seu modelo a fazer previsões melhores. Tenha cuidado, outliers extremos ainda podem prejudicar seu modelo.
    • Caso contrário, exclua os valores atípicos ou aplique técnicas de engenharia de recursos mais invasivas, como corte.