- Чернобровов Алексей Аналитик
- Как наглядно показать Data Science: визуализация больших данных
- Что такое EDA или визуализация данных для Data Science
- Как показать данные: виды графиков
- Инструменты визуализации данных
- Заключение
- Как визуализировать данные
- Зачем и как использовать визуализацию данных?
- Правила качественной визуализации или как подать информацию
- Зачем проверять информацию
- Способы отображения информации: типы диаграмм
- 1. Линейный график
- 3. Круговая диаграмма
- 4. Географические диаграммы
- 5. Пузырьковая диаграмма
- Как использовать графики и диаграммы правильно
- 3. Не забывайте о наглядности
- Как оформлять отчеты
- Топ-3 сервиса визуализации
- Google Data Studio
- С какими данными работает
- В чем преимущества
- Какие недостатки
- Power BI
- С какими данными можно работать
- Преимущества Power BI
- Недостатки
- Tableau
- Преимущества Tableau
- Недостатки
- Выводы
Чернобровов Алексей Аналитик
Как наглядно показать Data Science: визуализация больших данных
В статье рассмотрены методы и средства визуализации больших данных: цели разведочного анализа и их значимость в Data Science, виды графиков и правила их представления, а также соответствующие инструменты.
Что такое EDA или визуализация данных для Data Science
В отличие от инфографики, которая ближе к дизайну, чем к Data Science, визуализация данных не содержит декоративных элементов, а отражает большие объёмы информации с учетом возможных взаимосвязей [1]. Но в Data Science визуализация данных используется не только для наглядного представления результатов в виде понятных графиков. Это скорее метод быстрого прототипирования, когда с помощью множества визуальных представлений одних и тех же данных аналитик или Data Scientist пытается обнаружить скрытые взаимосвязи и зависимости [2]. Этот подход называется разведочный анализ данных (Exploratory Data analysis, EDA) и применяется для решения следующих задач [3]:
- максимальное погружение в данные;
- выявление основных структур;
- выбор наиболее важных переменных;
- обнаружение отклонений и аномалий;
- проверка основных гипотез;
- разработка начальных моделей.
Можно сказать, что EDA – часть процесса подготовки данных к ML-моделированию, когда после этапов выборки и очистки датасета выполняется генерация признаков (рис. 1.).
Рис. 1. Место EDA в Data Science
Кроме того, EDA позволяет Data Scientist’у убедиться в корректной интерпретации результатов и их применимости к желаемому бизнес-контексту. А бизнес-пользователи могут оперативно проверить правильность своих предположений, в т.ч. то, что они задают правильные вопросы. Таким образом, EDA играет роль средства валидации – оценки того, насколько данные соответствуют бизнес-целям. Это особенно важно при работе с Big Data, когда датасет собирается из множества различных источников с разными уровнями точности и детализации. На практике EDA даже приводит к интересным бизнес-инсайтам. Например, определение четкой зависимости суммы чека от времени суток, корреляция числа посетителей с погодными условиями и т.д. [4]
Математическую основу EDA составляют статистика и теория вероятностей, в частности, вероятностные распределения переменных, корреляционные матрицы, факторный анализ, дискриминантный анализ, многомерное шкалирование. В качестве практических инструментов для разведочного анализа используются специализированные математические программы (SAS, Matlab, KNIME, Weka, Orange), системы типа RStudio, оригинальные скрипты на Python и даже встроенные формулы табличных редакторов, таких как Excel и Google Sheets [5]. Подробнее инструменты EDA и визуализации данных рассмотрены далее.
Как показать данные: виды графиков
Выбирая наиболее подходящий вид графика для визуализации данных, следует, прежде всего, определить цель анализа и/или представления информации, например, [6]:
- сравнить разные показатели;
- продемонстрировать распределение данных – какие значения встречаются чаще или реже других;
- показать состав и структуру;
- выявить взаимосвязи между переменными.
Для этих целей используется более 20 видов различных диаграмм, от линейных графиков до корреляционных матриц. Выбор конкретной диаграммы для визуализации данных также зависит от числа анализируемых переменных и временных периодов (рис. 2.) [7].
Рис. 2. Многообразие диаграмм для визуализации данных
На практике в Data Science наиболее часто используются следующие виды графиков и диаграмм [8]:
- гистограмма для визуализации распределения данных в рамках непрерывного интервала или ограниченного периода времени, определения концентрации значений, а также выявления предельных показателей, пропусков или отклонений (рис.3).
Рис. 3. Гистограмма
- диаграмма рассеяния для выявления корреляции между двумя переменными (рис.4);
Рис. 4. Диаграмма рассеяния
- диаграмма размаха (ящик с усами) для отображения групп числовых данных через квартили, что удобно при сравнении распределений между большим количеством датасетов (рис.5)
Рис. 5. Диаграмма размаха
- тепловая матрица для многомерного анализа данных и выявления корреляций (рис.6)
Рис. 6. Тепловые матрицы для количественного и качественного анализа
- пузырьковая диаграмма для сравнения и отображения взаимосвязей между разными переменными с помощью их местоположения и пропорций – часто используется для анализа паттернов и поиска корреляций (рис.7).
Рис. 7. Пузырьковая диаграмма
Правильно выбранный вид диаграммы для визуализации данных соответствует следующим критериям [1]:
- краткость – возможность одновременно отобразить много разнотипных данных;
- относительность и близость – способность демонстрировать кластеры, относительные размеры групп, их схожесть и различие, выпадающие значения;
- концентрацию и контекст – возможность легко и оперативно взаимодействовать с выбранным объектом путем его интерактивного просмотра (отображение структуры и связей);
- масштабируемость – возможность легко и быстро изменять размеры представления;
- удобство пользователяза счет максимальной наглядности предоставления и поддержка интуитивных действий по выявлению закономерностей.
Инструменты визуализации данных
Современный рынок программного обеспечения предоставляет множество инструментов визуализации данных, от бесплатных интернет-сервисов до дорогих корпоративных пакетов: Excel, Google Sheets, Google Data Studio, RStudio, Tableau, Power BI, QlikView, OWOX BI Smart Data, SAS [6]. Большинство из них предоставляет не только встроенные средства для анализа датасетов, но и позволяет настраивать их и адаптировать исходный код к специфике отдельных проектов, а также создавать интерактивные динамические отчеты. Например, в [9] представлен подробный обзор целых 36 инструментов визуализации данных для различных прикладных задач, помимо EDA: картография, инфографика, создание интерактивных дэшбордов и т.д. Примечательно, что часть из них (Chart.js, Raw, Dygraphs, ZingChart, FusionCharts Suite XT, D3.js и многие другие) представляют собой плагины или библиотеки, которые можно интегрировать с другими средствами работы Data Scientist’a [9].
Интересен также сравнительный анализ наиболее популярных инструментов визуализации данных для маркетинговой аналитики, приведенный в [6] (рис. 8).
Рис. 8. Сравнительный анализ 5 популярных инструментов визуализации данных для маркетинговой аналитики
Хотя этот обзор больше относится к аналитике данных, чем непосредственно к Data Science и Big Data, он показывает еще одно важное применение визуализации – построение BI-дэшбордов для мониторинга различных бизнес-показателей (конверсия, характеристики пользователей и пр.) [6]. При проектировании дашбордов не стоит использовать все возможные виды диаграмм, стремясь по максимуму использовать все возможности визуализации: перегруженная витрина данных непонятна и сложна в эксплуатации. Пример удобного интерактивного дэшборда для ТОП-менеджера показан на рисунке 9 [2].
Рис. 9. Дашборд руководителя из Tableau
Заключение
Резюмируя использование методов и средств визуализации данных в Data Science и аналитике Big Data, можно сделать следующие выводы:
- визуализация данных и инфографика – это не одно и то же;
- визуализация нужна не только для наглядного представления результатов, но и для разработки предварительных гипотез, а также валидации исходных данных;
- EDA или разведочный анализ данных – важный этап подготовки датасета к ML-моделированию и другим техникам Data Mining;
- выбор графика для визуализации зависит от цели (сравнение переменных, выявление взаимосвязей, представление состава и структуры или демонстрация статистического распределения) и анализируемых категорий (многомерный анализ, временные ряды или корреляция нескольких показателей);
- на современном рынке ПО имеется множество как бесплатных, так и коммерческих решений для визуализации данных – интернет-сервисы и локальные продукты, проприетарные и open-source;
- существует целый ряд критериев и правил по выбору диаграмм для визуализации данных, в т.ч. в рамках построения интерактивных BI-дэшбордов, главное из которых – это удобство пользователя и возможность получения бизнес-инсайтов на основе представленной картинки.
Источник
Как визуализировать данные
Текст – информация, которая усваивается сложно. Таблица – более понятный вид отображения информации. Диаграмма – наглядно, красиво и понятно. Суть визуализации – привести информацию в понятный вид, понятный не только технически грамотному специалисту, но и обычному человеку.
В этой статье мы разберем зачем визуализировать данные, как это делать и каких правил нужно придерживаться, чтобы визуализация была понятной и доступной для восприятия.
Зачем и как использовать визуализацию данных?
Визуальный контент притягивает больше внимания, он лучше запоминается, его проще воспринимать. Это правило лежит в основе визуализации данных. Представьте, что вам нужно привлечь как можно больше внимание к посту в FB. Как вы это сделаете?
- Структурированный текст – хорошо
- Эмодзи в тексте – еще лучше
- Хорошая яркая картинка или инфографика в тему поста – вообще замечательно
По такому же принципу работает и визуализация данных. Сложную таблицу всегда можно свести в красивый и понятный график и затем использовать его для представления продукта, рассказа об аудитории и вообще о любой вещи или явлении.
Визуализация данных решает сразу несколько задач:
- Ускоряет восприятие и принятие решения. Разгрести тонну строчек в таблице или посмотреть с десятью столбцами и круговую диаграмму. Что проще? Конечно, графики!
- Увеличение вовлеченности. Рассматривать графики гораздо интереснее, чем читать скучные цифры.
- Качественное восприятие информации. Грамотная визуализация понятна любому человеку, даже если у него нет специальных знаний аналитика.
Визуализируйте данные всегда: в отчетах, текстах, презентациях, постах – везде. Это улучшит восприятие и увеличит вовлеченность каждого читателя.
Правила качественной визуализации или как подать информацию
Чтобы визуализация работала правильно, выполните 4 правила:
- Проверьте информацию
- Определите правильные средства отображения информации
- Определите аудиторию и постройте графики под ее особенности
- Сделайте правильное оформление графиков
Зачем проверять информацию
Фактчекинг – важный момент в работе аналитика или любого человека, работающего с данными. От того, насколько правильно сформирован отчет зависят действия, которые вы или ваши коллеги будут применять.
График должен отражать действительность. Если в нем есть ошибки, вы непременно получите ошибки в работе, которая будет строиться на основе отчетности.
Способы отображения информации: типы диаграмм
Как выбрать подходящий график исходя из типа данных. Источник – Digital Inspiration
Существует много разновидностей графиков и каждый из них подходит под разные цели. Рассмотрим наиболее популярные типы графиков:
1. Линейный график
Показывает динамику роста и спада по одному или нескольких показателям.
Графики удобно использовать для отображения информации о динамике цен, продаж, прибыли или для сравнения значений. Часто используются для визуализации показателей посещаемости страниц.
2. Столбцовая диаграмма
Тоже хорошее решение для демонстрации роста и спада разных показателей. Ниже представлен пример графика изменения сумм в разных кварталах года. Информация наглядная и понятная. Чтобы улучшить подачу над цифрами можно указать значения, например тыс. руб.
Есть отдельная разновидность столбцовых диаграмм – гистограммы. Они похожи на столбцовую диаграмму способом отображения, но используются для других целей.
Таким образом, гистограммы используются для отображения непрерывного интервала, В столбчатой диаграмме каждый столбик отображает отдельную категорию.
3. Круговая диаграмма
Идеальный вариант для демонстрации долей от целого. Примеры: разбивка аудитории по возрастному или половому признаку, источники прибыли, доли посетителей с компьютера, телефона и планшета.
4. Географические диаграммы
Используется для демонстрации распределения показателей по регионам: посещаемость из разных стран, популярность продукта в разных регионах. Можно использовать гео диаграмму по одной стране или по миру.
Пример географической диаграммы из сервиса Google Analytics. Отражает посещаемость из разных регионов
5. Пузырьковая диаграмма
Это линейный график с расширенными возможностями. Вместо точек применяются круги разных размеров, отражающие третье значение. Использовать такую диаграмму можно для отражения зависимостей.
Пример использования – в презентации услуг SEO-агентства: как меняются показатели затрат на рекламу и растет трафик.
Такой график понятный и наглядный. Из примера: трафик растет с течением времени, затраты стремятся к нулю.
Это пять наиболее популярных разновидности графиков. Некоторые из них можно объединять для получения более наглядной демонстрации.
Круговые диаграммы на географической для большей наглядности
Как использовать графики и диаграммы правильно
Есть несколько правил, которые нужно учитывать для грамотной визуализации аналитических данных.
1. Учитывайте интересы аудитории
Графики должны быть понятны и близки аудитории, для которой вы готовите презентацию. Если вы предполагаете, что график может быть непонятен и не найдет отклик, подготовьте аудиторию устным рассказом о том, что вы пытаетесь донести.
2. Не перегружайте графики
Неудачное и правильное отображение информации
Много данных – это хорошо, но далеко не всегда, особенно, когда вы рассказываете о сложном мало осведомленным людям. Упростите информацию и сделайте так, чтобы она легче усваивалась.
3. Не забывайте о наглядности
Сделайте так, чтобы изменения были заметными.
Если изменения незаметны, попробуйте поиграть со шкалой времени или отразите изменения не с нуля, а с текущих значений, масштаб графиков тоже влияет на наглядность.
Как оформлять отчеты
Если вы готовите стандартный отчет, избавьте его от всего лишнего. Не засоряйте график, используйте только важную информацию. Различные украшения отвлекают внимание и не дают сосредоточиться на главном – информации, которая лежит в основе графиков.
Топ-3 сервиса визуализации
Обработка массивов данных – тяжелый труд, особенно если не знать о крутых инструментах визуализации данных и автоматизации этих задач. Есть куча полезных программ, которые позволяют без помощи программиста создавать понятные графики и дашборды под любые цели. Мы определили топ-3 полезных сервиса для этих целей, берите на вооружение, презентуйте информацию правильно и легко.
Google Data Studio
Крутой инструмент от великого и могучего Google. Он бесплатный и достаточно функциональный для решения большинства задач. Позволяет сводить массивы данных в понятные графики.
С какими данными работает
Можно собирать данные более чем из 100 источников, хорошо работает с продуктами Google: Analytics, Ads, таблицы и Яндекса: Метрика и Директ. Можно использовать данные из баз MySQL и рекламных кабинетов Facebook и Instagram.
В чем преимущества
- Добротная бесплатная версия. Ее хватит для решения задач малого и среднего бизнеса
- Несложный интерфейс: разберется человек без специальных знаний, знания синтаксиса языков программирование необязательно
- Можно создавать шаблоны визуализации данных. Это удобно для частичной автоматизации процессов
- Постоянные обновления. Появляется новый функционал
Какие недостатки
- Мало типов визуализации данных. Но для решения большинства задач функционала хватает
- Узкий функционал работы с вычисляемыми полями. У следующих программ такой функционал шире
- Сервис хорош для представителей малого и среднего бизнеса, когда нужно собирать простые графики для презентаций
Power BI
Продукт для работы с массивами данных от Microsoft. Под названием Power BI объединяется несколько сервисов. Один из продуктов позволяет сводить данные в графики для упрощения анализа.
Есть бесплатная и корпоративная версия стоимостью 9.99 $/мес.
С какими данными можно работать
Информацию можно подтягивать из разных источников: популярных баз данных, Google, различных интернет-источников, в том числе из рекламных кабинетов социальных сетей.
Преимущества Power BI
- Удобно работать с продуктами Microsoft. Хорошо интегрируется с Excel. Azure Cloud Service, SQL Server
- Есть много шаблонов для красивой визуализации баз данных
- Есть облачный и десктопный интерфейсы. Можно работать на разных компьютерах: дома и в офисе
- Можно интегрировать в собственные приложения и продукты от сторонних разработчиков
- Возможности предоставления отчетов по ссылке и в файле
Недостатки
- Плохо воспринимает данные из Google Analytics и Яндекс.Метрики. Проблему помогают решить коннекторы от сторонних разработчиков
- Мало инструментария для обработки и очистки данных
- Сервис особенно удобен для пользователей, работающих на устройствах с ОС Windows
Tableau
Крупный сервис для аналитики и визуализации данных. В нем предусмотрен широкий функционал для визуализации любых данных в разных форматах.
С какими данными работает
Можно использовать данные из самых разных источников. Сервис работает с десятками платформ, популярными форматами файлов и базами данных.
Преимущества Tableau
- Можно сводить данные из разных источников в единые графики
- Можно работать в команде. Несколько сотрудников могут смотреть и корректировать отчеты
- Разные способы передачи отчетов. Можно поделиться ссылкой, отправить отчет по почте в файле
- Широкий выбор шаблонов. Разные способы отображения данных
Недостатки
- Нет бесплатной версии. Оплачивается по количеству пользователей раз в месяц
- Для интеграции в работу нужна поддержка IT-специалиста
- Сервис удобен, когда нужно собрать данные с разных источников и быстро объединить их в один отчет. Полезен для командной работы
Выводы
Визуализация данных делает жизнь специалистов проще, главное правильно подавать информацию:
- Проверьте информацию перед построением графиков
- Выбирайте правильные диаграммы и не забывайте о смысловой нагрузке каждого элемента данных
- Подстраивайте визуализацию под аудиторию, иначе информация будет воспринята неправильно
- Соблюдайте эргономику. Не переусердствуйте с оформлением
- Выберите удобный инструмент визуализации с нужным функционалом
Чтобы строить графики и визуализировать данные, их нужно откуда-то брать и где-то хранить. Соберите все в одном месте, используйте CRM.
Если вы хотите знать, как CRM-система поможет в работе с данными, пишите онлайн-консультанту на сайте.
Источник