Esta página foi traduzida pela API Cloud Translation.

Resumo

Neste curso, abordamos muitas armadilhas comuns dos dados, desde a qualidade do conjunto de dados até a visualização e a análise estatística.

Profissionais de ML devem perguntar:

Eu entendo bem as características dos meus conjuntos de dados e as as condições em que os dados foram coletados?
Que problemas de qualidade ou viés existem nos meus dados? São fatores de confusão presente?
Que possíveis problemas downstream podem surgir do uso desses recursos conjuntos de dados?
Ao treinar um modelo que faz previsões ou classificações: o conjunto de dados em que o modelo é treinado contém todas as variáveis relevantes?

Independentemente das descobertas, os profissionais de ML devem sempre examinar se têm viés de confirmação e verificam as descobertas em relação aos intuição e bom senso, e investigar onde quer que os dados estejam em conflito com eles.

Mais informações

Cairo, Alberto. Como os gráficos mentem: como usar informações visuais de maneira mais inteligente. Nova York: W.W. Norton, 2019.

Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps (Como mentir com o Maps), 3a ed. Chicago: U de Chicago P, 2018.

Jonas, Ben. Como evitar armadilhas de dados. Hoboken, Nova Jersey: Wiley, 2020.

Wheelan, Charles. Naked Statistics: removendo o Dread dos dados. Nova York: W.W. Norton, 2013

Armadilhas de visualização