Dans ce cours, nous avons passé en revue de nombreux problèmes courants concernant la qualité des ensembles de données, à la réflexion à la visualisation et à l'analyse statistique.
Les professionnels du ML doivent se poser les questions suivantes:
- Dans quelle mesure est-ce que je comprends les caractéristiques de mes ensembles de données et les conditions dans lesquelles ces données ont été collectées ?
- Quels problèmes de qualité ou de biais existent dans mes données ? sont des facteurs de confusion ; actuellement ?
- Quels problèmes potentiels en aval pourraient découler de l'utilisation de ces des ensembles de données ?
- Lors de l'entraînement d'un modèle qui réalise des prédictions ou des classifications : l'ensemble de données avec lequel le modèle est entraîné contient toutes les variables pertinentes ?
Quelles que soient leurs conclusions, les professionnels du ML doivent toujours examiner eux-mêmes pour détecter les préjugés de confirmation, puis comparent leurs résultats l'intuition et le bon sens, et enquêter sur toutes les zones où les données sont en conflit avec celles-ci.
Autres ressources
Alberto, au Caire. How Charts Lie: Getting Smarter about Visual Information NY: O.O. Norton, 2019.
Huff, Darrell. Comment exploiter les statistiques ? NY: W.W. Norton, 1954.
Marc Monmonier. How to Lie with Maps, 3e édition Chicago: U of Chicago P, 2018.
Ben Évitez les pièges liés aux données. Hoboken, New Jersey: Wiley, 2020.
Charles, Wheelan. Naked Statistics: Supprimer la peur des données. NY: O.O. Norton, 2013