Pièges des données

Objectifs de la formation

Dans ce module, vous allez apprendre à:

  • Examiner les problèmes potentiels sous-jacents aux ensembles de données bruts ou traités, y compris les problèmes de collecte et de qualité.
  • Identifier les biais, les inférences non valides et les rationalisations
  • Trouvez les problèmes courants en analyse de données, notamment la corrélation, leur relation et leur non-pertinence.
  • Examiner un graphique pour détecter les problèmes courants, les idées reçues et des choix d'affichage et de conception trompeurs.

Motivation du ML

Bien qu'il ne soit pas aussi glamour que les architectures de modèle et les autres modèles en aval, l'exploration des données, la documentation et le prétraitement sont essentiels pour le travail du ML. Les professionnels du ML peuvent faire partie de l'étude de Nithya Sambasivan et al. appelé cascade de données dans son article d'ACM 2021 s'ils ne comprennent pas en profondeur:

  • les conditions dans lesquelles leurs données sont collectées
  • la qualité, les caractéristiques et les limites des données
  • ce que les données peuvent et ne peuvent pas montrer

Entraîner des modèles sur des données de mauvaise qualité est très onéreux, ne découlent qu'au niveau des résultats de mauvaise qualité qu'il y a eu des problèmes avec les données. De même, si l'incapacité à saisir les limites des données, des biais lors de la collecte des données, ou de confondre la corrélation avec la causalité, peut entraîner des résultats trop prometteurs et sous-diffusés, ce qui peut entraîner à la perte de confiance.

Ce cours présente les pièges de données courants, mais subtils, que le ML et les données que les professionnels peuvent rencontrer dans leur travail.