Pièges de visualisation

Les tableaux, les graphiques et les cartes sont des outils attrayants et persuasifs pour communiquer des insights et des informations. Lorsqu'elles sont déployées de manière mal ou malveillante, elles sont également des sources de confusion, de mésinformation et de fausses informations.

Des tableaux comme de l'art plutôt que de la science

Les professionnels du ML visualisent souvent des ensembles de données d'entraînement potentiels pour comprendre leur utilité pour les modèles, ainsi que les sorties des modèles pour comprendre leurs performances.

Demandez toujours le contexte, l'audience et l'objectif prévus d'une visualisation de données, que vous en créiez une ou que vous la lisiez. Ces trois facteurs sont essentiels à la communication graphique. Le même graphique peut être utile et instructif, ou trompeur et exagéré, dans différents contextes1. Le public visé et son niveau de lisibilité des graphiques et des données varient. La conception peut aider ou entraver. Par exemple, des graphiques d'une beauté à couper le souffle peuvent être trop complexes pour communiquer clairement des informations.

Il n'existe pas de règles strictes pour créer un graphique parfait, mais seulement des consignes et des bonnes pratiques. La visualisation des données est autant un art qu'une science. Mais lors de la visualisation des données, efforcez-vous, avant tout, d'obtenir clarté et honnêteté. Fournissez suffisamment d'informations pour communiquer clairement et précisément, mais pas trop pour ne pas submerger l'utilisateur.

Échafaudages, contenus et mouvements trompeurs

Dans son ouvrage How Charts Lie, Alberto Cairo divise les visualisations de données en deux parties : scaffolding (échafaudage) et content (contenu).

L'échafaudage d'un graphique comprend les titres, les axes, les légendes, les libellés et la source des données, le cas échéant.

Le contenu inclut l'encodage visuel des données et toute annotation textuelle courte. Les méthodes d'encodage visuel des données incluent généralement:

  • longueur, comme dans les graphiques à barres
  • position, comme dans les graphiques en nuage de points
  • angles, aires et arcs proportionnels dans les camemberts
  • couleur et teinte
  • plus rarement, largeur et épaisseur2.

Tous ces éléments peuvent être utilisés pour induire en erreur. Démarrer un graphique à barres à une valeur de référence non nulle ou tronquer les barres les plus longues peut créer des perceptions inexactes, même si l'objectif était d'économiser de l'espace. Pour obtenir des exemples, consultez l'essai de Sarah Leo sur les erreurs de visualisation des données dans Economist.

Un format inapproprié peut faire qu'une modification mineure semble très importante ou qu'une modification importante peut sembler très mineure. Cairo suggère de choisir un format qui correspond à la variation proportionnelle représentée, par exemple 3:1 pour une variation de 30 %, mais conseille également de prêter une attention particulière au contexte, car il existe de nombreuses exceptions importantes à la règle. Les fluctuations relativement faibles de la température moyenne mondiale (par exemple, une augmentation de 2 °C par rapport à 100 °C) sont très importantes et seront sous-estimées dans un graphique au format 50:13.

L'utilisation de rotations 3D des graphiques et d'autres effets 3D pour avoir un impact visuel, plutôt que pour représenter des données 3D, est très susceptible d'induire en erreur les utilisateurs. Il en va de même pour les représentations d'objets 3D qui remplacent les barres dans les graphiques à barres. Si les données ne sont encodées qu'en fonction de la longueur, comme avec un graphique à barres standard, le lecteur peut interpréter l'objet proportionnellement plus grand comme ayant un volume plus important, et donc une valeur plus élevée que nécessaire4. Les concepteurs qui utilisent des représentations 2D des données, comme des bulles, encodent les données par rayon ou diamètre plutôt que par zone, peuvent également représenter des proportions trompeuses.5 Les graphiques circulaires impliquent également que tous les segments représentent un tout, ce qui n'est pas toujours le cas.

Graphique 3D 3x4 illustrant l'impact de l'essence, de l'éthanol et de l'électricité sur le réchauffement climatique Graphique à barres 3D angulaire illustrant le pourcentage de ventes générées par différentes sources
Exemple de visualisations de données difficiles à lire.

La couleur est son propre sujet. En règle générale :

  • Utilisez six divisions de couleur ou moins, car c'est la limite de ce que la plupart des utilisateurs peuvent gérer sans confusion.
  • Évitez une large sélection de teintes spectrales, car les personnes les classent différemment.6
  • Si possible, sélectionnez des nuances d'une seule teinte, qui sont plus faciles à distinguer en niveaux de gris.
  • Tenez compte des différents types de daltonisme.

Références

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information NY : W.W. Norton, 2019.

Huff, Darrell. How to Lie with Statistics. NY : W.W. Norton, 1954.

Marc Monmonier. How to Lie with Maps, 3e édition, Chicago: U of Chicago P, 2018.

Références d'images

"Graphique illustrant un exemple de structure de comptabilisation du débit." TAUser, 2008. GNU FDL Source

"GWP (MTCO2E) pour tous les types de véhicules sur leur cycle de vie". B2.Team.Leader, 2006. Source


  1. Cairo 72-73, 79. 

  2. Cairo 24-26, 36-38. 

  3. Le Caire, 69-70. 

  4. Huff 21-25. 

  5. Cairo 34, 58-59. 

  6. Monmonier 65-66.