Диаграммы, графики и карты — это убедительные и убедительные инструменты для передачи идей и информации. Они также, при плохом или злонамеренном использовании, являются источниками путаницы, дезинформации и лжи.
Графики как искусство, а не наука
Специалисты по машинному обучению часто визуализируют потенциальные наборы обучающих данных, чтобы понять их полезность для моделей, а также результаты моделей, чтобы понять производительность.
Всегда спрашивайте о предполагаемом контексте, аудитории и цели визуализации данных, независимо от того, создаете ли вы ее или читаете. Эти три фактора являются ключевыми для графической коммуникации. Одна и та же диаграмма может быть полезной и проницательной или вводить в заблуждение и преувеличивать в разных контекстах. 1 Предполагаемый зритель и уровень его грамотности в отношении графиков и данных могут различаться. Дизайн может помочь или помешать. Например, потрясающе красивые диаграммы могут быть слишком запутанными, чтобы четко передавать информацию.
Не существует жестких правил создания идеальной диаграммы, есть только рекомендации и лучшие практики. Визуализация данных — это не только наука, но и искусство. Но при визуализации данных стремитесь, прежде всего, к ясности и честности. Предоставляйте достаточно информации, чтобы передать ее четко и точно, но не так много информации, которая могла бы перегрузить зрителя.
Подмостки, контент и вводящие в заблуждение действия
Альберто Каиро в книге «Как лгут диаграммы » разделяет визуализацию данных на две части: основу и контент .
Структура диаграммы включает заголовки, оси, легенды, метки и источник данных, если он указан.
Контент включает визуальное кодирование данных и любые короткие текстовые аннотации. Методы визуального кодирования данных обычно включают:
- длина, как на гистограммах
- положение, как на диаграммах рассеяния
- пропорциональные углы, площади и дуги на круговых диаграммах
- цвет и оттенок
- реже ширина и толщина 2
Все эти элементы могут быть использованы для введения в заблуждение. Начало гистограммы с ненулевой базовой линии или усечение самых длинных столбцов может привести к неточному восприятию, даже если целью было сэкономить место. Некоторые примеры см. в эссе Сары Лео об ошибках визуализации данных в журнале Economist .
Из-за неподходящего соотношения сторон небольшое изменение может показаться очень большим, а большое — очень маленьким. Каир предлагает выбрать соотношение сторон, которое соответствует изображаемому пропорциональному изменению, скажем, 3:1 для изменения на 30%, но также советует уделять пристальное внимание контексту, поскольку из этого правила есть много важных исключений. Относительно небольшие колебания средней глобальной температуры, например, повышение на 2°C из 100°C, очень значительны и будут занижены на диаграмме с соотношением сторон 50:1. 3
Использование трехмерного вращения диаграмм и других трехмерных эффектов для визуального воздействия, а не для представления трехмерных данных, скорее всего, введет в заблуждение. То же относится и к изображениям трехмерных объектов, которые заменяют столбцы на гистограммах. Если данные кодируются только по длине, как в стандартной гистограмме, читатель может интерпретировать пропорционально больший объект как имеющий больший объем и, следовательно, более высокое значение, чем это необходимо. 4 Дизайнеры, которые используют двухмерные представления данных, такие как пузырьки, и кодируют данные по радиусу или диаметру, а не по площади, также создают неверные пропорции. 5 Двухмерные представления, такие как круговые диаграммы, могут затруднить сравнение сегментов друг с другом. Круговые диаграммы также подразумевают, что все сегменты составляют единое целое, что может быть, а может и не быть.
Цвет – это отдельная тема. В общем:
- Используйте 6 или меньше цветовых делений, поскольку это предел того, с чем большинство людей могут справиться без путаницы.
- Избегайте широкого выбора спектральных оттенков, потому что разные люди заказывают их по-разному. 6
- Если есть возможность, выбирайте оттенки одного оттенка, который лучше различим в оттенках серого.
- Помните о различных типах дальтонизма .
Ссылки
Каир, Альберто. Как лгут диаграммы: умнее обращаться с визуальной информацией. Нью-Йорк: WW Нортон, 2019.
Хафф, Даррелл. Как лгать со статистикой. Нью-Йорк: WW Нортон, 1954.
Монмонье, Марк. Как лгать с картами, 3-е изд. Чикаго: Университет Чикаго П., 2018.
Ссылки на изображения
«Пример структуры учета пропускной способности». TAUser, 2008. GNU FDL. Источник
«ПГП (MTCO2E) для всех типов транспортных средств в течение жизненного цикла». Б2.Команда.Лидер, 2006. Источник