Armadilhas de dados

Objetivos de aprendizagem

Neste módulo, você vai aprender a:

  • Investigar possíveis problemas subjacentes a conjuntos de dados brutos ou processados, incluindo problemas de coleta e qualidade.
  • Identifique vieses, inferências inválidas e racionalizações.
  • Encontrar problemas comuns na análise de dados, incluindo correlação, relação e irrelevância.
  • Examinar um gráfico em busca de problemas comuns, percepções equivocadas e escolhas enganosas de exibição e design.

Motivação do ML

Embora não sejam tão glamourosos quanto as arquiteturas de modelo e outros modelos downstream, exploração, documentação e pré-processamento de dados são fundamentais para o trabalho do ML. Os profissionais de ML podem cair no que Nithya Sambasivan et al. chamava cascatas de dados no artigo da ACM de 2021 se não entendem profundamente:

  • as condições em que os dados são coletados
  • a qualidade, as características e as limitações
  • o que os dados podem e não podem mostrar

É muito caro treinar modelos com dados ruins só descobriram problemas quando tiverem saídas de baixa qualidade com os dados. Da mesma forma, a falha em compreender as limitações dos dados, vieses na coleta de dados ou no erro de correlação de causalidade, pode resultar em resultados muito promissores e insuficientes, o que pode levar perda de confiança.

Este curso apresenta armadilhas de dados comuns, mas sutis, que o ML e os dados que os profissionais podem encontrar no trabalho.