可视化陷阱

图表、图形和地图是具有吸引力和说服力的沟通工具 获取数据洞见和信息。如果恶意部署或恶意部署, 造成混淆、虚假信息和不真实的根源。

将图表当作艺术而不是科学

机器学习从业者通常会直观呈现潜在的训练数据集,以了解 实用性,以及模型输出以了解性能。

始终询问数据的预期情境、受众群体用途 无论您是要创建还是阅读一个可视化项目。这三个因素分别是 是图形通信的关键。同一图表既实用又富有参考价值,或者 具有误导性和夸大性的内容。1目标观看者;以及 观看者的图表水平和数据素养水平会有所不同。设计可以帮助 阻碍。例如,美观精美的图表可能过于复杂, 清晰传达信息。

如何生成完美的图表并没有硬性规定, 指导和最佳实践。直观呈现数据既是一门艺术 科学。但在直观呈现数据时,应力求数据清晰坦诚。 提供足够的信息,以便清晰准确地传达信息,而不是 大量信息,避免让观看者感到无所适从。

脚手架、内容和误导性动作

Alberto Cairo 在 How Charts Lie 一书中将数据可视化拆分为两部分: 基架内容

图表的基架包括标题、轴、图例、标签和 数据(如果指定)。

内容包括数据的可视编码,以及任何简短的文字 注释。对数据进行可视化编码的方法通常包括:

  • 如条形图中的一样长度
  • 位置,如散点图
  • 饼图中的比例角度、面积和弧线
  • 色彩和色调
  • 宽度和粗细2

所有这些因素都可用于误导他人。以非零值开始条形图表 或截断最长的条形,可能会造成不准确的观念, 即便是为了节省空间欣赏 Sarah Leo 的 论文 Economist 中对数据可视化错误给出的几个例子。

如果宽高比不合适,可能会让小小的变化看起来非常大, 或者大幅更改看起来非常小。建议从开罗 与所描述的比例变化相匹配的宽高比,例如,对于 30% 的变化,同时建议密切关注背景信息, 这条规则的许多重要例外情况平均波动相对较小 例如,从 100C 中升高 2C, 非常重要,在宽高比为 50:1 的图表中会被忽略 比例。3

使用图表的 3D 旋转和其他 3D 效果来实现视觉冲击, 很可能会误导用户。同样, 3D 对象图示,取代了条形图中的条形。如果 和标准条形图一样,数据仅按长度进行编码, 按比例放大的对象解释为具有更大的体积, 因此需要比适当提高出价。4使用 2D 广告的设计师 数据的表示形式,例如气泡,以及按半径或直径对数据进行编码 而不用按面积来显示数据,也会产生误导性比例。5 2D 饼图等表示法可能会使数据细分很难 相互对抗。饼图还表示,所有细分加起来就是一个整体, 实际情况不一定如此。

显示汽油、乙醇和电力对全球变暖的影响的 3x4 3D 图表 倾斜的 3D 条形图,显示因不同来源而产生的销售额百分比
难以阅读的数据可视化示例。

颜色是它自己的正文。一般来说:

  • 使用 6 个或更少的色域,因为大多数人只能选择这个 不会造成混淆
  • 避免选择过多的光谱色调,因为对它们进行排序 。6
  • 如果可能,请选择单一色调的色调, 以便识别。
  • 了解不同类型的 色盲

参考

开罗,阿尔贝托。How Charts Lie: Learner about Visual Information [图表如何谎报]:更智能地获取视觉信息)。纽约: 西Norton,2019 年。

呼哈,达雷尔。如何从统计学说谎。NY:W.W.1954 年,诺顿。

Monmonier、Mark。How to Lie with Google Maps,第 3 版芝加哥:U of Chicago P,2018 年。

图片参考

“吞吐量核算结构示例图表。”TAUser,2008 年。 GNU FDL来源

“所有车辆类型在生命周期内的 GWP (MTCO2E)”。B2.Team.Leader,2006 年。 来源


  1. 开罗 72-73、79。 

  2. 开罗 24-26、36-38。 

  3. Cairo 69-70。 

  4. 呼气 21-25。 

  5. Cairo 34、58-59。 

  6. Monmonier 65-66。