Trampas de datos

Objetivos de aprendizaje

En este módulo, aprenderás a hacer lo siguiente:

  • Investigar problemas potenciales subyacentes de conjuntos de datos sin procesar o procesados, lo que incluye de recopilación y calidad.
  • Identifica sesgos, inferencias no válidas y racionalizaciones.
  • Encontrar problemas habituales en el análisis de datos, incluida la correlación, la relación y la irrelevancia.
  • Examina un gráfico para detectar problemas comunes, percepciones erróneas y opciones de visualización y diseño engañosas.

Motivación por el AA

Aunque no son tan glamorosos como las arquitecturas de modelos y otros trabajos de modelos downstream, la exploración de datos, la documentación y el procesamiento previo de AA. según lo que Nithya Sambasivan et al. se llamó cascadas de datos en su informe de ACM de 2021 si no entienden en detalle lo siguiente:

  • las condiciones en las que se recopilan sus datos
  • la calidad, las características y las limitaciones de los datos
  • lo que los datos pueden y no pueden mostrar

Es muy costoso entrenar modelos con datos incorrectos y solo descubres en el punto de resultados de baja calidad que hubo problemas con los datos. Del mismo modo, la falta de comprensión de las limitaciones de los datos, sesgos en la recopilación de datos o confundir la correlación con la causalidad, puede dar lugar a resultados demasiado prometedores o insuficientes, lo que puede generar pérdida de confianza.

En este curso, se explican las trampas de datos comunes, pero sutiles, que el AA y los datos que los profesionales pueden encontrar en su trabajo.