Depuração de dados e recursos

Dados de baixa qualidade afetam significativamente o desempenho do seu modelo. É muito mais fácil detectar dados de baixa qualidade na entrada em vez de adivinhar a existência dele depois que seu modelo prevê mal. Monitore seus dados seguindo as orientações nesta seção.

Validar dados de entrada usando um esquema de dados

Para monitorar seus dados, verifique continuamente os dados em relação aos valores estatísticos esperados escrevendo regras que os dados precisam atender. Esse conjunto de regras é chamado de esquema de dados. Defina um esquema de dados seguindo estas etapas:

  1. Para os dados do atributo, entenda o intervalo e a distribuição. Para atributos categóricos, entenda o conjunto de valores possíveis.
  2. Codifique seu conhecimento em regras definidas no esquema. Veja alguns exemplos de regras:

    • As classificações enviadas pelo usuário devem estar sempre entre 1 e 5.
    • Verifique se "o" ocorre com mais frequência (para um recurso de texto em inglês).
    • Verifique se os atributos categóricos têm valores de um conjunto fixo.
  3. Teste seus dados no esquema de dados. Seu esquema precisa detectar erros de dados como:

    • anomalies
    • valores inesperados de variáveis categóricas
    • distribuições de dados inesperadas

Garantir que as divisões tenham boa qualidade

As divisões de teste e treinamento precisam representar igualmente os dados de entrada. Se as divisões de teste e treinamento forem estatisticamente diferentes, os dados de treinamento não ajudarão a prever os dados de teste. Para saber como coletar amostras e dividir dados, consulte a seção Amostragem e divisão de dados no curso Preparação de dados e Engenharia de atributos no ML.

Monitore as propriedades estatísticas das divisões. Se as propriedades divergirem, use uma sinalização. Além disso, teste se a proporção de exemplos em cada divisão permanece constante. Por exemplo, se os dados forem divididos em 80:20, a proporção não deverá mudar.

Testar dados projetados

Embora os dados brutos possam ser válidos, seu modelo vê apenas os dados do atributo projetado. Como os dados da engenharia são muito diferentes dos dados de entrada brutos, você precisa verificar os dados da engenharia separadamente. Com base na compreensão dos seus dados de engenharia, crie testes de unidade. Por exemplo, é possível criar testes de unidade para verificar as seguintes condições:

  • Todos os atributos numéricos são dimensionados, por exemplo, entre 0 e 1.
  • Os vetores codificados one-hot contêm apenas um zeros 1 e N-1.
  • Os dados ausentes são substituídos por valores médios ou padrão.
  • As distribuições de dados após a transformação estão de acordo com as expectativas. Por exemplo, se você normalizou usando o z-scores, a média deles será 0.
  • Uso de outliers, como dimensionamento ou recorte.