Neste curso, abordamos muitas armadilhas comuns dos dados, desde a qualidade do conjunto de dados até a visualização e a análise estatística.
Profissionais de ML devem perguntar:
- Eu entendo bem as características dos meus conjuntos de dados e as as condições em que os dados foram coletados?
- Que problemas de qualidade ou viés existem nos meus dados? São fatores de confusão presente?
- Que possíveis problemas downstream podem surgir do uso desses recursos conjuntos de dados?
- Ao treinar um modelo que faz previsões ou classificações: o conjunto de dados em que o modelo é treinado contém todas as variáveis relevantes?
Independentemente das descobertas, os profissionais de ML devem sempre examinar se têm viés de confirmação e verificam as descobertas em relação aos intuição e bom senso, e investigar onde quer que os dados estejam em conflito com eles.
Mais informações
Cairo, Alberto. Como os gráficos mentem: como usar informações visuais de maneira mais inteligente. Nova York: W.W. Norton, 2019.
Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps (Como mentir com o Maps), 3a ed. Chicago: U de Chicago P, 2018.
Jonas, Ben. Como evitar armadilhas de dados. Hoboken, Nova Jersey: Wiley, 2020.
Wheelan, Charles. Naked Statistics: removendo o Dread dos dados. Nova York: W.W. Norton, 2013