Resumen

En este curso, se revisaron muchas trampas de datos comunes, desde la calidad de los conjuntos de datos hasta el pensamiento para la visualización y el análisis estadístico.

Los profesionales del AA deben preguntarse lo siguiente:

  • ¿Qué tan bien comprendo las características de mis conjuntos de datos y la condiciones bajo las que se recolectaron esos datos?
  • ¿Qué problemas de calidad o sesgos existen en mis datos? Son factores de confusión. presente?
  • ¿Qué problemas potenciales podrían surgir debido al uso de estas conjuntos de datos?
  • Cuando entrenas un modelo que realiza predicciones o clasificaciones: que el conjunto de datos con el que se entrena el modelo contenga todas las variables relevantes?

Sin importar cuáles sean sus hallazgos, los profesionales del AA siempre deben para detectar el sesgo de confirmación, comparan sus hallazgos con la intuición y el sentido común, e investigar cuando los datos entren en conflicto con estos.

Lecturas adicionales

El Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. Nueva York: W.W. Norton, 2019.

Huff, Darrell. Cómo lidiar con las estadísticas. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, 3a ed. Chicago: U of Chicago P, 2018.

Jones, Ben. Evita errores de datos. Hoboken, Nueva Jersey: Wiley, 2020.

Wheelan, Charles. Estadísticas sin datos: Quita el temor de los datos. Nueva York: W.W. Norton, 2013