понедельник, 15 июня 2015 г.

Н. Яу, «Искусство визуализации в бизнесе» — часть 2


(Вторая часть конспекта. Пусть полежит пока.)

5. Визуализация пропорций

Если временные ряды группируются по времени, то данные о пропорциях группируются по категориям, подкатегориям и совокупностям. Это территория выборок.

Что искать в пропорциях

В случае с пропорциями ищут три вещи: минимум, максимум и распределение в целом. Для демонстрации минимума и максимума график не нужен, их можно показать и так. График нужен для демонстрации соотношения между разными категориями.

Части целого


Круговая диаграмма — наиболее частый случай. При её использовании нужно помнить о двух вещах:
  • сумма всего круга должна составлять 100%;
  • не стоит нарезать круг на слишком большое количество секторов.
Тёмные тона действуют как маркеры, поэтому более крупные сектора желательно окрасить в более насыщенные цвета, а мелкие — в более светлые.

К диаграмме надо добавить заголовок, вводное предложение и подписи. Они могут располагаться:
  • внутри секторов;
  • рядом с секторами;
  • на выносках (если сектора слишком маленькие).

Кольцевая диаграмма во всём подобна круговой, только кольцевая. Хорошо подходит для небольшого количества категорий.

Для визуализации категорийных данных нормально подходят штабельные диаграммы. В таком случае горизонтальная ось становится осью категорий, высота яруса соответствует значению подкатегории, а высота всего столбца — категории в целом.

Тримап — способ визуализации, где общий прямоугольник (100%) разбивается на внутренние прямоугольники, площадь каждого из которых соответствует определённой категории. Его можно применять и для обычных пропорций, но лучше для иерархически организованных данных.
Для создания тримапов можно воспользоваться R.

Пропорции во времени

В этом случае надо демонстрировать изменение соотношения пропорций с течением времени.

Непрерывная штабельная диаграмма. Аналог штабельной, но без разделения на столбцы. Используйте цвета, которые подходят для вашей темы и оттенки которых помогают зрителям ориентироваться в том, что они видят.

Если категорий много, то штабельная диаграмма будет плохо смотреться. В этом случае можно попробовать совместить линейные графики изменения каждой категории.

Резюме

Основное отличие пропорций в том, что они являются частью целого. Из этого и следует исходить при выборе способов визуализации.

6. Визуализация зависимостей

Корреляция

Корреляция — это склонность объекта меняться определённым образом вслед за изменениями другого объекта.

В диаграмме рассеяния для коррелирующих значений горизонтальная ось показывает значения первичной переменной, а вертикальная — значения зависимой переменной. Если корреляция есть (положительная или отрицательная), то точки распределены в виде диагональных линий. Если корреляции нет, точки разбросаны хаотично.

Диаграмму рассеяния с выявленной корреляцией можно сделать более наглядной, добавив аппроксимирующую линию (тренд или скользящее среднее).

Матрица диаграмм рассеяния позволяет сравнивать несколько переменных попарно между собой. Она представляет собой квадрат из диаграмм рассеяния размером N×N, где N — количество переменных. Поскольку сравнивать переменную саму с собой бессмысленно, главная диагональ матрицы используется для подписей.

Для создания матрицы диаграмм рассеяния следует воспользоваться R, он для этого очень удобен. Потом диаграмму можно допилить Inkscape-ом.

Для сравнения трёх переменных используется пузырьковая диаграмма. В ней площадь пузырька соответствует размеру третьей переменной.

Распределение

Среднее — обычно, среднее арифметическое.

Медиана — среднее по порядку в отсортированных по возрастанию отсчётах.

Мода — значение, встречающееся чаще всего.

В гистограмме распределения горизонтальная ось показывает значения одной непрерывной переменной, ширина столбцов — диапазон, высота гистограммы — количество отсчётов, попавших в этот диапазон.

Количество делений (ширина диапазона) в диаграмме по умолчанию не всегда оптимально. Можно попробовать разные значения и подобрать такое, которое лучше всего подойдёт для целей истории.

График плотности, в отличие от гистограммы, показывает распределение в непрерывном, а не дискретном виде.

Сравнение

Множественное сравнение: матрица гистограмм. Или можно совместить несколько гистограмм на одной шкале.

Резюме

При поиске и визуализации зависимостей обращайте внимание на выбросы и паттерны. Ищите причины такого поведения данных. Убедитесь, что данные понятны вам, и сделайте их понятными всем остальным.

7. Выявление различий

Вместо того, чтобы категорировать все элементы множества, вы можете поискать что-то, что выделяется на общем фоне. Эта глава посвящена тому, как обособлять группы в рамках совокупности, причём делать это по большому числу критериев, а также как выявлять выбросы, применяя здравый смысл.

Сравнение по нескольким переменным

Основная сложность — определить с чего начать. Иногда лучше всего попробовать охватить все данные одним взглядом, и тогда необычные элементы сами подскажут направление дальнейших поисков.

В тепловой карте каждая колонка представляет собой переменную, по которой идёт сравнение; каждая строка — элемент (объект) сравнения; интенсивность цвета соответствует значению переменной. За счёт контраста пиковые значения сами будут бросаться в глаза.

Лица Чернова. Спорный метод представления многомерных данных путём построения упрощённого лица, параметры которого зависят от соответствующих данных.

Радарная диаграмма. Более наглядна, чем лица Чернова. Каждая ось соответствует одной переменной. Каждый объект формирует «снежинку» особой формы. Выбросы видны сразу. Желательно не накладывать графики друг на друга, а сравнивать их по отдельности.

Диаграмма Найтингейл. Вроде радарной, но использует длину сектора, а не точку на оси.

Диаграмма с параллельными координатами. Вертикальная ось — нормированная шкала от минимального значения переменной до максимума. По горизонтали откладываются переменные. Для каждого элемента строится ломанная линия, соединяющая точки на нормированных шкалах. Эта диаграмма позволяет выделить схожие группы.

Сокращение размерности

При использовании многомерного сравнения основная задача состоит в сокращении размерности. Нужно выделить несколько основных групп. Для этого существует метод многомерного шкалирования. По-другому это называется кластеризацией.

Поиск выбросов

Кроме поиска похожести нас будет интересовать и поиск непохожести, т.е. выбросов. Каждый выброс надо проверять, не является ли он опечаткой при вводе данных.

Резюме

Сравнивать многомерные данные тяжело, но интересно.

8. Визуализация пространственных отношений

Что искать

Карты читаются так же, как и статистические диаграммы и графики. Карты указывают на привязку скоплений/пиков к определённым точкам в пространстве.

Отдельные местоположения

Карты оперируют широтой и долготой, а географические данные, обычно, поступают в виде адресов. Поэтому надо провести подготовительную работу и сконвертировать все данные в широту и долготу.

Существуют разные сервисы для перекодирования данных такого плана:
Geocoder.us
Предоставляет API и интерфейс, куда можно вставить адрес и получить координаты.
Latitude Longitude Popup
Сервис на основе Google Maps, позволяет ткнуть мышкой в карту и получить координаты.
Geopy
Объединяет кучу API по геокодированию в один пакет на основе Python.
Карта состоит из нескольких слоёв. На нижнем обычно оставляют линии административного деления, на верхнем выводят сами точки. Назначая точкам контрастный цвет, можно выделить их на фоне карты.

Маршруты можно выводить, соединяя точки на карте линиями. Так же можно показать связи между различными точками на карте.

Для отображения неких численных характеристик можно использовать, например, пузырьковую диаграмму, наложенную на карту.

Регионы

Регионы можно раскрашивать в разные цвета, в зависимости от показателя этого региона. Это называется картограмма. Для подбора цветовой схемы удобно использовать ColorBrewer.

Если данные непрерывны, цветовая шкала тоже должна быть непрерывной. Если данные делятся на категории в зависимости от попадания в тот или иной диапазон, шкалу тоже желательно делить на контрастные категории.

Имея карту в SVG, разбитую на регионы, можно с помощью питоновского скрипта раскрасить эти регионы согласно данным (SVG это обычный XML, а каждый контур имеет свой ID, позволяющий соотнести его с регионом).
На карте обязательно должен быть заголовок и легенда, объясняющая значение разных оттенков. Также нужно указать источник данных.

Во времени и пространстве

Иногда важно показать изменение положения дел во времени с привязкой к пространственным данным. Можно нарисовать несколько мелких карт, по одной для каждого из моментов времени.

Для большей наглядности можно визуализировать сами различия за определённый диапазон времени. Для этого считаются различия и делается тепловая карта.

Если карта не привязана к бумаге, её можно сделать анимированной.

Резюме

Карты штука сложная и требуют кропотливой работы. Зато они наглядны и очень любимы зрителями – каждому кажется, что он хорошо разбирается в картах.

9. Прицельный дизайн

Дизайн диаграммы подготавливает почву для вопросов, которые зритель должен задать себе при её просмотре.

Подготовьте себя

Нельзя объяснить интересные моменты в данных, если вы сами в этих данных не разбираетесь. Узнайте, откуда эти данные взялись, как собирались и о чём говорят. Выделите время для ознакомления с данными и изучения контекста чисел. После того, как вы узнаете о своих данных всё, что можно, вы будете готовы приступить к созданию графики.

Подготовьте своих читателей

Ваша работа в донесении до читателей того, чего они не знали. Не нужно писать эссе в поддержку своей работы. Обычно достаточно заголовка и нескольких пояснений во вводном абзаце.

Не принимайте по умолчанию, что читатели знакомы с данными и сами в них разберутся. Подсказка о том, что именно вы хотите сказать своими данными, никогда не будет лишней.

Визуальные подсказки

Более тёмные цветовые тона лучше применять с мрачными темами, а более яркие цвета создают беззаботное и радостное настроение. Цвет способен вызывать эмоции и помогает донести сообщение до читателя.

По большому счёту, визуализация это превращение данных в визуальные элементы. Некоторые визуальные коды работают лучше других, их применимость зависит от конкретного набора данных. Метод, ошибочный при визуализации одного набора, может оказаться идеальным для другого.

Достойная визуализация

Основной вопрос: какой смысл несёт в себе полученная графика? Если она говорит то, что я хочу узнать — это замечательно. Если нет — надо вернуться обратно к чистому листу и попробовать её улучшить так, чтобы она отвечала на вопросы, которые у меня возникают по поводу этих данных.

В конечном счёте всё сводится к тому:
  • какие цели вы ставите перед графикой?
  • какую историю хотите рассказать?
  • кому будете её рассказывать?

Резюме

Задача дизайна не сводится к тому, чтобы сделать графику просто красивой. Она в том, чтобы сделать графику более читабельной, понятной и полезной.

Если сложно представить, с какой стороны подступиться к работе, начните с вопроса, что именно вы хотите узнать. Найти сезонные паттерны? Изучить зависимости между множеством переменных? Найти выбросы? Исследовать пространственные зависимости? Присмотритесь к данным и подумайте, можете ли вы сами найти в них ответ на свой вопрос. Если данных для этого недостаточно, найдите дополнительные самостоятельно.

Данные — это отражение реальной жизни. Изучайте данные, и вы сможете рассказывать истории, о которых люди даже не догадываются, но которые им не терпится услышать.

Комментариев нет:

Отправить комментарий