Synthèse

Dans ce cours, nous avons passé en revue de nombreux problèmes courants concernant la qualité des ensembles de données, à la réflexion à la visualisation et à l'analyse statistique.

Les professionnels du ML doivent se poser les questions suivantes:

  • Dans quelle mesure est-ce que je comprends les caractéristiques de mes ensembles de données et les conditions dans lesquelles ces données ont été collectées ?
  • Quels problèmes de qualité ou de biais existent dans mes données ? sont des facteurs de confusion ; actuellement ?
  • Quels problèmes potentiels en aval pourraient découler de l'utilisation de ces des ensembles de données ?
  • Lors de l'entraînement d'un modèle qui réalise des prédictions ou des classifications : l'ensemble de données avec lequel le modèle est entraîné contient toutes les variables pertinentes ?

Quelles que soient leurs conclusions, les professionnels du ML doivent toujours examiner eux-mêmes pour détecter les préjugés de confirmation, puis comparent leurs résultats l'intuition et le bon sens, et enquêter sur toutes les zones où les données sont en conflit avec celles-ci.

Autres ressources

Alberto, au Caire. How Charts Lie: Getting Smarter about Visual Information NY: O.O. Norton, 2019.

Huff, Darrell. Comment exploiter les statistiques ? NY: W.W. Norton, 1954.

Marc Monmonier. How to Lie with Maps, 3e édition Chicago: U of Chicago P, 2018.

Ben Évitez les pièges liés aux données. Hoboken, New Jersey: Wiley, 2020.

Charles, Wheelan. Naked Statistics: Supprimer la peur des données. NY: O.O. Norton, 2013