Resumo

Neste curso, abordamos muitas armadilhas comuns dos dados, desde a qualidade do conjunto de dados até a visualização e a análise estatística.

Profissionais de ML devem perguntar:

  • Eu entendo bem as características dos meus conjuntos de dados e as as condições em que os dados foram coletados?
  • Que problemas de qualidade ou viés existem nos meus dados? São fatores de confusão presente?
  • Que possíveis problemas downstream podem surgir do uso desses recursos conjuntos de dados?
  • Ao treinar um modelo que faz previsões ou classificações: o conjunto de dados em que o modelo é treinado contém todas as variáveis relevantes?

Independentemente das descobertas, os profissionais de ML devem sempre examinar se têm viés de confirmação e verificam as descobertas em relação aos intuição e bom senso, e investigar onde quer que os dados estejam em conflito com eles.

Mais informações

Cairo, Alberto. Como os gráficos mentem: como usar informações visuais de maneira mais inteligente. Nova York: W.W. Norton, 2019.

Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps (Como mentir com o Maps), 3a ed. Chicago: U de Chicago P, 2018.

Jonas, Ben. Como evitar armadilhas de dados. Hoboken, Nova Jersey: Wiley, 2020.

Wheelan, Charles. Naked Statistics: removendo o Dread dos dados. Nova York: W.W. Norton, 2013