Résumé

Ce cours a abordé de nombreux pièges courants liés aux données, de la qualité des ensembles de données à la réflexion, en passant par la visualisation et l'analyse statistique.

Les professionnels du ML doivent se poser les questions suivantes :

  • Dans quelle mesure comprenez-vous les caractéristiques de vos ensembles de données et les conditions dans lesquelles ces données ont été collectées ?
  • Quels problèmes de qualité ou de biais existent dans mes données ? Y a-t-il des facteurs de confusion ?
  • Quels problèmes en aval pourraient survenir si vous utilisiez ces ensembles de données spécifiques ?
  • Lors de l'entraînement d'un modèle qui effectue des prédictions ou des classifications : l'ensemble de données sur lequel le modèle est entraîné contient-il toutes les variables pertinentes ?

Quels que soient leurs résultats, les spécialistes du ML doivent toujours s'examiner eux-mêmes pour détecter tout biais de confirmation, puis vérifier leurs résultats par rapport à leur intuition et à leur bon sens, et enquêter chaque fois que les données sont en conflit avec ceux-ci.

Autres ressources

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. How to Lie with Statistics NY : W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps,3e éd. Chicago : U of Chicago P, 2018.

Jones, Ben. Éviter les pièges liés aux données : Hoboken, NJ : Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013