Ловушки визуализации

Диаграммы, графики и карты — это убедительные и убедительные инструменты для передачи идей и информации. Они также, при плохом или злонамеренном использовании, являются источниками путаницы, дезинформации и лжи.

Графики как искусство, а не наука

Специалисты по машинному обучению часто визуализируют потенциальные наборы обучающих данных, чтобы понять их полезность для моделей, а также результаты моделей, чтобы понять производительность.

Всегда спрашивайте о предполагаемом контексте, аудитории и цели визуализации данных, независимо от того, создаете ли вы ее или читаете. Эти три фактора являются ключевыми для графической коммуникации. Одна и та же диаграмма может быть полезной и проницательной или вводить в заблуждение и преувеличивать в разных контекстах. 1 Предполагаемый зритель и уровень его грамотности в отношении графиков и данных могут различаться. Дизайн может помочь или помешать. Например, потрясающе красивые диаграммы могут быть слишком запутанными, чтобы четко передавать информацию.

Не существует жестких правил создания идеальной диаграммы, есть только рекомендации и лучшие практики. Визуализация данных — это не только наука, но и искусство. Но при визуализации данных стремитесь, прежде всего, к ясности и честности. Предоставляйте достаточно информации, чтобы передать ее четко и точно, но не так много информации, которая могла бы перегрузить зрителя.

Подмостки, контент и вводящие в заблуждение действия

Альберто Каиро в книге «Как лгут диаграммы » разделяет визуализацию данных на две части: основу и контент .

Структура диаграммы включает заголовки, оси, легенды, метки и источник данных, если он указан.

Контент включает в себя визуальное кодирование данных и любые короткие текстовые аннотации. Методы визуального кодирования данных обычно включают в себя:

  • длина, как на гистограммах
  • положение, как на диаграммах рассеяния
  • пропорциональные углы, площади и дуги на круговых диаграммах
  • цвет и оттенок
  • реже ширина и толщина 2

Все эти элементы могут быть использованы для введения в заблуждение. Начало гистограммы с ненулевой базовой линии или усечение самых длинных столбцов может привести к неточному восприятию, даже если целью было сэкономить место. Некоторые примеры см. в эссе Сары Лео об ошибках визуализации данных в журнале Economist .

Из-за неподходящего соотношения сторон небольшое изменение может показаться очень большим, а большое — очень маленьким. Каир предлагает выбрать соотношение сторон, которое соответствует изображаемому пропорциональному изменению, скажем, 3:1 для изменения на 30%, а также советует внимательно следить за контекстом, поскольку из этого правила есть много важных исключений. Относительно небольшие колебания средней глобальной температуры, например, повышение на 2°C из 100°C, очень значительны и будут занижены на диаграмме с соотношением сторон 50:1. 3

Использование трехмерного вращения диаграмм и других трехмерных эффектов для визуального воздействия, а не для представления трехмерных данных, скорее всего, введет в заблуждение. То же относится и к изображениям трехмерных объектов, которые заменяют столбцы на гистограммах. Если данные кодируются только по длине, как в стандартной гистограмме, читатель может интерпретировать пропорционально больший объект как имеющий больший объем и, следовательно, более высокое значение, чем это необходимо. 4 Дизайнеры, которые используют двухмерные представления данных, такие как пузырьки, и кодируют данные по радиусу или диаметру, а не по площади, также создают неверные пропорции. 5 Двухмерные представления, такие как круговые диаграммы, могут затруднить сравнение сегментов друг с другом. Круговые диаграммы также подразумевают, что все сегменты составляют единое целое, что может быть, а может и не быть.

3D-диаграмма 3x4, показывающая влияние бензина, этанола и электричества на глобальное потепление.Угловая трехмерная гистограмма, показывающая % продаж из разных источников
Пример трудно читаемой визуализации данных.

Цвет – это отдельная тема. В общем:

  • Используйте 6 или меньше цветовых делений, поскольку это предел того, с чем большинство людей могут справиться без путаницы.
  • Избегайте широкого выбора спектральных оттенков, потому что разные люди заказывают их по-разному. 6
  • Если есть возможность, выбирайте оттенки одного оттенка, который лучше различим в оттенках серого.
  • Помните о различных типах дальтонизма .

Рекомендации

Каир, Альберто. Как лгут диаграммы: умнее обращаться с визуальной информацией. Нью-Йорк: WW Нортон, 2019.

Хафф, Даррелл. Как лгать со статистикой. Нью-Йорк: WW Нортон, 1954.

Монмонье, Марк. Как лгать с картами, 3-е изд. Чикаго: Чикагский университет, 2018.

Ссылки на изображения

«Пример структуры учета пропускной способности». TAUser, 2008. GNU FDL. Источник

«ПГП (MTCO2E) для всех типов транспортных средств в течение жизненного цикла». Б2.Команда.Лидер, 2006. Источник


  1. Каир 72-73, 79.

  2. Каир 24–26, 36–38.

  3. Каир 69-70.

  4. Хафф 21-25.

  5. Каир 34, 58-59.

  6. Монмонье 65-66.