- 11 правил визуализации данных
- ПРАВИЛО 1. ПРАВИЛЬНЫЙ ТИП ГРАФИКА
- ПРАВИЛО 2. ЛОГИЧЕСКИЙ ПОРЯДОК
- ПРАВИЛО 3. ПРОСТОЙ ДИЗАЙН
- ПРАВИЛО 4. ЛЕГКОЕ СРАВНЕНИЕ ДАННЫХ
- ПРАВИЛО 5. МИНИМУМ ЭЛЕМЕНТОВ
- ПРАВИЛО 6. НЕ ПЕРЕГРУЖАЙТЕ ИНФОРМАЦИЕЙ
- ПРАВИЛО 7. ПОНЯТНЫЙ ФОРМАТ ЧИСЕЛ
- ПРАВИЛО 8. НАЗВАНИЕ И ПОДПИСИ
- ПРАВИЛО 9. ОБЩЕПРИНЯТЫЕ ЦВЕТОВЫЕ РЕШЕНИЯ
- ПРАВИЛО 10. МИНИМУМ ТИПОВ ДИАГРАММ
- ПРАВИЛО 11. ЕДИНАЯ ЦВЕТОВАЯ ПАЛИТРА
- Чернобровов Алексей Аналитик
- Как наглядно показать Data Science: визуализация больших данных
- Что такое EDA или визуализация данных для Data Science
- Как показать данные: виды графиков
- Инструменты визуализации данных
- Заключение
11 правил визуализации данных
Ольга Базалева, создатель Data Vis и автор блога, написала статью специально для Нетологии о самых важных принципах визуализации. Статья участвует в конкурсе блога.
Хотите выделяться на фоне конкурентов? Чтобы ваши статьи, отчеты, презентации или посты в социальных сетях были профессиональными, интересными и доступными широкой аудитории? Используйте визуализацию данных!
Я более семи лет отработала в крупнейших медиакомпаниях и рекламных агентствах, на счету Афиша, Рамблер, РБК, создала сайт с наглядными обзорами рынков и собственный блог про визуализацию данных. Поэтому я очень хорошо понимаю то, о чем пойдет речь ниже.
Сегодня визуализация особенно важна, так как люди теряются в обилии окружающей информации и на ее восприятие тратится слишком много времени. Поэтому скучные непонятные тексты часто остаются без внимания. Читатель не будет тратить время, чтобы в них разобраться.
Визуально представленная информация в сравнении с обычным текстом и таблицами:
- привлекает намного больше аудитории;
- увеличивает вовлечение читателей;
- быстрее воспринимается;
- легче запоминается.
Существует множество способов визуализации. В этой статье речь пойдет о самых распространенных и доступных из них — о графиках и диаграммах. Неграмотное использование даже самых простых графиков может испортить впечатление о вашей работе и о вас как об эксперте. Чтобы этого не случилось, придерживайтесь основных правил визуализации данных.
ПРАВИЛО 1. ПРАВИЛЬНЫЙ ТИП ГРАФИКА
Используйте правильный тип и формат визуализации.
Главная цель визуализации — упростить и ускорить восприятие информации. Выбранный формат и тип графика должны этому способствовать, а не мешать.
Например, если в круговой диаграмме больше трех-пяти значений, график становится нечитабельным. Лучше в таком случае выбрать обычную линейчатую диаграмму.
Еще пример неудачного использования круговой диаграммы, когда сумма категорий не равна 100%. Это грубейшая ошибка, так как данные просто-напросто искажаются.
Не менее важно следить, чтобы не нарушались общепринятые стандарты. Временные оси (года, месяца, кварталы) всегда должны располагаться горизонтально слева направо, это интуитивно понятно. Если же их расположить вертикально сверху вниз, это будет сильно затруднять понимание.
Помните, что неудачно выбранный тип и формат визуализации сразу снижает доверие к представленной информации.
ПРАВИЛО 2. ЛОГИЧЕСКИЙ ПОРЯДОК
Располагайте данные логично.
Обязательно располагайте данные в логическом порядке. Чаще всего это последовательно от большего к меньшему.
Если вы показываете на диаграмме результаты опроса, где есть деление на положительные и отрицательные ответы, то логичнее их выстроить в таком порядке: «Да, Скорее да, Нет, Скорее нет, Затрудняюсь ответить».
Данные можно выстраивать и от меньшего к большему, если это соответствует цели вашего сообщения. Цель всегда первична. Прежде чем приступать к построению графика, четко сформулируйте, какую идею вы хотите донести до читателей, на что хотите обратить внимание.
ПРАВИЛО 3. ПРОСТОЙ ДИЗАЙН
Дизайн не должен препятствовать пониманию или искажать данные.
Избегайте бесполезных элементов дизайна, таких как градиенты, тени, эффекты 3D. Они только отвлекают внимание читателя от сути вашего сообщения.
Ваш график не становится красивым и внушительным от того, что он нарисован объемным. Это могло удивить лет двадцать назад, на заре расцвета Excel, когда еще мало кто умел строить диаграммы. Более того, 3D–графики могут вызвать оптический обман.
Помните, если визуализация выполнена красиво, это еще не значит, что она выполнена качественно. Принципы хорошего дизайна: ясность, простота и минимализм.
ПРАВИЛО 4. ЛЕГКОЕ СРАВНЕНИЕ ДАННЫХ
Визуализируйте данные так, чтобы их можно было легко сравнивать.
Одна из главных целей визуализации – удобное и наглядное сравнение двух и более показателей.
Поэтому, чтобы ваши диаграммы были ценными и полезными, показывайте соотношение между данными. Если разбить однотипную информацию на много отдельных графиков, визуализация становится бессмысленной.
Именно быстрое понимание самых высоких и самых низких значений, тенденций и корреляций является главным преимуществом визуализации в сравнении с обычной таблицей или текстом. Диаграммы должны гораздо быстрее и яснее передавать ваши идеи. Если это не так, меняйте тип графика.
ПРАВИЛО 5. МИНИМУМ ЭЛЕМЕНТОВ
На диаграмме должны быть только необходимые элементы.
Убирайте с ваших графиков и диаграмм все неинформативные элементы, оставляйте только необходимые.
Загромождение ненужной информацией затрудняет восприятие.
Например, если есть подписи значений, то линии сетки и ось не нужны, так как это дублирование информации и является графическим «мусором». Основные и вспомогательные линии сетки, если они все же необходимы, должны быть простыми и не бросающимися в глаза. Акцент всегда должен быть на основной идее, а не на вспомогательных элементах. Если следовать этому совету, то нужная информация сразу выходит на первый план.
ПРАВИЛО 6. НЕ ПЕРЕГРУЖАЙТЕ ИНФОРМАЦИЕЙ
Следите, чтобы не было визуальной загроможденности.
Не пытайтесь уместить на одну диаграмму всю имеющуюся у вас информацию ради того, чтобы ваш график казался умным и значительным. Визуальный ряд не должен быть перегружен сложными и многоярусными диаграммами.
Когда необходимо визуализировать много разных типов данных и категорий, целесообразнее разделять диаграмму на несколько частей. Например, если на линейном графике больше четырех-пяти линий или на столбиковой диаграмме больше двух категорий, не стоит умещать их на одном графике.
ПРАВИЛО 7. ПОНЯТНЫЙ ФОРМАТ ЧИСЕЛ
Числа должны быть с разделителями разрядов и без лишних знаков после запятой.
В больших числах всегда разделяйте разряды: 10 000 000, а не 10000000, иначе цифры становятся нечитабельными.
Также не используйте знаки после запятой без осознанной необходимости. И следите, чтобы формат был единый. Если вы решили показать один знак после запятой, то сделайте так для всех подписей данных, а не выборочно: где-то два знака, где-то три, а где-то без единого знака.
ПРАВИЛО 8. НАЗВАНИЕ И ПОДПИСИ
У диаграммы должно быть название и полная легенда.
Следите, чтобы всегда у вашей диаграммы было полное понятное название и все необходимые подписи, иначе появляется риск неверного истолкования.
Всегда должен быть понятен период и единицы измерения. Не надейтесь, что пользователь вашего графика догадается об этом из контекста. Чтобы удостовериться, что данные будут верно интерпретированы, встаньте на место читателя, который видит вашу диаграмму впервые. Все должно быть предельно чётко, у читателя не должно остаться ни одного сомнения по поводу трактовки представленных данных.
Помните, что ваша задача при создании графиков и диаграмм — упростить восприятие данных, а не вызвать лишние вопросы.
ПРАВИЛО 9. ОБЩЕПРИНЯТЫЕ ЦВЕТОВЫЕ РЕШЕНИЯ
Не нарушайте общепринятое использование того или иного цвета.
Есть несколько основных категорий, которые у нас всегда ассоциируются с определенным цветом:
- положительные и отрицательные значения: зелёный и красный;
- да/нет, согласен/не согласен: зелёный и красный;
- мужчины и женщины: голубой и розовый;
- прочее/другое/остальное/нет ответа/затрудняюсь ответить — серый цвет.
Если показывать данные категории на диаграммах в ожидаемой цветовой гамме, то пользователю даже не надо смотреть на легенду, без этого ясно, какой цвет что обозначает. Не пренебрегайте этим правилом, оно очень простое и логичное, однако в интернете часто встречаются примеры его игнорирования.
Есть хороший прием использования цвета для сравнения показателей текущего года и прошедшего — делать прошедший год более бледным, а текущий более ярким. При этом оба года лучше показывать в оттенках одного цвета, потому что речь идет про один и тот же показатель.
ПРАВИЛО 10. МИНИМУМ ТИПОВ ДИАГРАММ
Используйте один вид диаграммы для однотипных данных.
Избегайте разнообразия ради разнообразия.
Это не всегда красиво, но всегда бесполезно. Для однотипных данных лучше выбирать один вид диаграммы.
Например, когда вы показываете последовательно ответы на вопросы исследования или динамику продаж по нескольким магазинам, не включайте фантазию, используйте графики одного типа. Читателю необходимо время, чтобы привыкнуть к каждому новому виду диаграммы и разобраться, что означает та или иная линия, кружок или столбик.
ПРАВИЛО 11. ЕДИНАЯ ЦВЕТОВАЯ ПАЛИТРА
Придерживайтесь одной цветовой гаммы.
Визуальные элементы (графики, диаграммы, схемы) на протяжении всего исследования или отчета должны быть выполнены в одной цветовой гамме.
Если же вы исследовательская компания, то цветовая палитра должна быть единой и во всех исследованиях, для соблюдения фирменного стиля. Если вы свой отчет дополняете графиками из других исследований, их необходимо перерисовывать, иначе они сильно врезаются в общую картину и портят восприятие. Во-первых, у них наверняка другая цветовая гамма, во-вторых, часто качество картинок не самое лучшее и это сразу бросается в глаза.
Перерисовать график в стиле компании займет всего 10–20 минут, а отчет будет смотреться более целостным и качественным. Таким образом, именно вы интуитивно будете восприниматься создателем информации и экспертом, даже если укажете другой источник данных, что, кстати говоря, также всегда необходимо делать.
Не игнорируйте эти простые, но очень важные правила визуализации. Берегите своих читателей. Никто не любит чувствовать себя глупо, рассматривая непонятные или нагроможденные графики и диаграммы.
А вы сами при виде странных диаграмм на конференциях или совещаниях, не задавались вопросом: «Это я один такой несообразительный, что ничего не понимаю?» Поверьте, вы не одиноки!
Источник
Чернобровов Алексей Аналитик
Как наглядно показать Data Science: визуализация больших данных
В статье рассмотрены методы и средства визуализации больших данных: цели разведочного анализа и их значимость в Data Science, виды графиков и правила их представления, а также соответствующие инструменты.
Что такое EDA или визуализация данных для Data Science
В отличие от инфографики, которая ближе к дизайну, чем к Data Science, визуализация данных не содержит декоративных элементов, а отражает большие объёмы информации с учетом возможных взаимосвязей [1]. Но в Data Science визуализация данных используется не только для наглядного представления результатов в виде понятных графиков. Это скорее метод быстрого прототипирования, когда с помощью множества визуальных представлений одних и тех же данных аналитик или Data Scientist пытается обнаружить скрытые взаимосвязи и зависимости [2]. Этот подход называется разведочный анализ данных (Exploratory Data analysis, EDA) и применяется для решения следующих задач [3]:
- максимальное погружение в данные;
- выявление основных структур;
- выбор наиболее важных переменных;
- обнаружение отклонений и аномалий;
- проверка основных гипотез;
- разработка начальных моделей.
Можно сказать, что EDA – часть процесса подготовки данных к ML-моделированию, когда после этапов выборки и очистки датасета выполняется генерация признаков (рис. 1.).
Рис. 1. Место EDA в Data Science
Кроме того, EDA позволяет Data Scientist’у убедиться в корректной интерпретации результатов и их применимости к желаемому бизнес-контексту. А бизнес-пользователи могут оперативно проверить правильность своих предположений, в т.ч. то, что они задают правильные вопросы. Таким образом, EDA играет роль средства валидации – оценки того, насколько данные соответствуют бизнес-целям. Это особенно важно при работе с Big Data, когда датасет собирается из множества различных источников с разными уровнями точности и детализации. На практике EDA даже приводит к интересным бизнес-инсайтам. Например, определение четкой зависимости суммы чека от времени суток, корреляция числа посетителей с погодными условиями и т.д. [4]
Математическую основу EDA составляют статистика и теория вероятностей, в частности, вероятностные распределения переменных, корреляционные матрицы, факторный анализ, дискриминантный анализ, многомерное шкалирование. В качестве практических инструментов для разведочного анализа используются специализированные математические программы (SAS, Matlab, KNIME, Weka, Orange), системы типа RStudio, оригинальные скрипты на Python и даже встроенные формулы табличных редакторов, таких как Excel и Google Sheets [5]. Подробнее инструменты EDA и визуализации данных рассмотрены далее.
Как показать данные: виды графиков
Выбирая наиболее подходящий вид графика для визуализации данных, следует, прежде всего, определить цель анализа и/или представления информации, например, [6]:
- сравнить разные показатели;
- продемонстрировать распределение данных – какие значения встречаются чаще или реже других;
- показать состав и структуру;
- выявить взаимосвязи между переменными.
Для этих целей используется более 20 видов различных диаграмм, от линейных графиков до корреляционных матриц. Выбор конкретной диаграммы для визуализации данных также зависит от числа анализируемых переменных и временных периодов (рис. 2.) [7].
Рис. 2. Многообразие диаграмм для визуализации данных
На практике в Data Science наиболее часто используются следующие виды графиков и диаграмм [8]:
- гистограмма для визуализации распределения данных в рамках непрерывного интервала или ограниченного периода времени, определения концентрации значений, а также выявления предельных показателей, пропусков или отклонений (рис.3).
Рис. 3. Гистограмма
- диаграмма рассеяния для выявления корреляции между двумя переменными (рис.4);
Рис. 4. Диаграмма рассеяния
- диаграмма размаха (ящик с усами) для отображения групп числовых данных через квартили, что удобно при сравнении распределений между большим количеством датасетов (рис.5)
Рис. 5. Диаграмма размаха
- тепловая матрица для многомерного анализа данных и выявления корреляций (рис.6)
Рис. 6. Тепловые матрицы для количественного и качественного анализа
- пузырьковая диаграмма для сравнения и отображения взаимосвязей между разными переменными с помощью их местоположения и пропорций – часто используется для анализа паттернов и поиска корреляций (рис.7).
Рис. 7. Пузырьковая диаграмма
Правильно выбранный вид диаграммы для визуализации данных соответствует следующим критериям [1]:
- краткость – возможность одновременно отобразить много разнотипных данных;
- относительность и близость – способность демонстрировать кластеры, относительные размеры групп, их схожесть и различие, выпадающие значения;
- концентрацию и контекст – возможность легко и оперативно взаимодействовать с выбранным объектом путем его интерактивного просмотра (отображение структуры и связей);
- масштабируемость – возможность легко и быстро изменять размеры представления;
- удобство пользователяза счет максимальной наглядности предоставления и поддержка интуитивных действий по выявлению закономерностей.
Инструменты визуализации данных
Современный рынок программного обеспечения предоставляет множество инструментов визуализации данных, от бесплатных интернет-сервисов до дорогих корпоративных пакетов: Excel, Google Sheets, Google Data Studio, RStudio, Tableau, Power BI, QlikView, OWOX BI Smart Data, SAS [6]. Большинство из них предоставляет не только встроенные средства для анализа датасетов, но и позволяет настраивать их и адаптировать исходный код к специфике отдельных проектов, а также создавать интерактивные динамические отчеты. Например, в [9] представлен подробный обзор целых 36 инструментов визуализации данных для различных прикладных задач, помимо EDA: картография, инфографика, создание интерактивных дэшбордов и т.д. Примечательно, что часть из них (Chart.js, Raw, Dygraphs, ZingChart, FusionCharts Suite XT, D3.js и многие другие) представляют собой плагины или библиотеки, которые можно интегрировать с другими средствами работы Data Scientist’a [9].
Интересен также сравнительный анализ наиболее популярных инструментов визуализации данных для маркетинговой аналитики, приведенный в [6] (рис. 8).
Рис. 8. Сравнительный анализ 5 популярных инструментов визуализации данных для маркетинговой аналитики
Хотя этот обзор больше относится к аналитике данных, чем непосредственно к Data Science и Big Data, он показывает еще одно важное применение визуализации – построение BI-дэшбордов для мониторинга различных бизнес-показателей (конверсия, характеристики пользователей и пр.) [6]. При проектировании дашбордов не стоит использовать все возможные виды диаграмм, стремясь по максимуму использовать все возможности визуализации: перегруженная витрина данных непонятна и сложна в эксплуатации. Пример удобного интерактивного дэшборда для ТОП-менеджера показан на рисунке 9 [2].
Рис. 9. Дашборд руководителя из Tableau
Заключение
Резюмируя использование методов и средств визуализации данных в Data Science и аналитике Big Data, можно сделать следующие выводы:
- визуализация данных и инфографика – это не одно и то же;
- визуализация нужна не только для наглядного представления результатов, но и для разработки предварительных гипотез, а также валидации исходных данных;
- EDA или разведочный анализ данных – важный этап подготовки датасета к ML-моделированию и другим техникам Data Mining;
- выбор графика для визуализации зависит от цели (сравнение переменных, выявление взаимосвязей, представление состава и структуры или демонстрация статистического распределения) и анализируемых категорий (многомерный анализ, временные ряды или корреляция нескольких показателей);
- на современном рынке ПО имеется множество как бесплатных, так и коммерческих решений для визуализации данных – интернет-сервисы и локальные продукты, проприетарные и open-source;
- существует целый ряд критериев и правил по выбору диаграмм для визуализации данных, в т.ч. в рамках построения интерактивных BI-дэшбордов, главное из которых – это удобство пользователя и возможность получения бизнес-инсайтов на основе представленной картинки.
Источник