Ce cours a abordé de nombreux pièges courants liés aux données, de la qualité des ensembles de données à la réflexion, en passant par la visualisation et l'analyse statistique.
Les professionnels du ML doivent se poser les questions suivantes :
- Dans quelle mesure comprenez-vous les caractéristiques de vos ensembles de données et les conditions dans lesquelles ces données ont été collectées ?
- Quels problèmes de qualité ou de biais existent dans mes données ? Y a-t-il des facteurs de confusion ?
- Quels problèmes en aval pourraient survenir si vous utilisiez ces ensembles de données spécifiques ?
- Lors de l'entraînement d'un modèle qui effectue des prédictions ou des classifications : l'ensemble de données sur lequel le modèle est entraîné contient-il toutes les variables pertinentes ?
Quels que soient leurs résultats, les spécialistes du ML doivent toujours s'examiner eux-mêmes pour détecter tout biais de confirmation, puis vérifier leurs résultats par rapport à leur intuition et à leur bon sens, et enquêter chaque fois que les données sont en conflit avec ceux-ci.
Autres ressources
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.
Huff, Darrell. How to Lie with Statistics NY : W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps,3e éd. Chicago : U of Chicago P, 2018.
Jones, Ben. Éviter les pièges liés aux données : Hoboken, NJ : Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013