Какие визуальные способы аналитики больших данных существуют

Чернобровов Алексей Аналитик

Как наглядно показать Data Science: визуализация больших данных

В статье рассмотрены методы и средства визуализации больших данных: цели разведочного анализа и их значимость в Data Science, виды графиков и правила их представления, а также соответствующие инструменты.

Что такое EDA или визуализация данных для Data Science

В отличие от инфографики, которая ближе к дизайну, чем к Data Science, визуализация данных не содержит декоративных элементов, а отражает большие объёмы информации с учетом возможных взаимосвязей [1]. Но в Data Science визуализация данных используется не только для наглядного представления результатов в виде понятных графиков. Это скорее метод быстрого прототипирования, когда с помощью множества визуальных представлений одних и тех же данных аналитик или Data Scientist пытается обнаружить скрытые взаимосвязи и зависимости [2]. Этот подход называется разведочный анализ данных (Exploratory Data analysis, EDA) и применяется для решения следующих задач [3]:

  • максимальное погружение в данные;
  • выявление основных структур;
  • выбор наиболее важных переменных;
  • обнаружение отклонений и аномалий;
  • проверка основных гипотез;
  • разработка начальных моделей.

Можно сказать, что EDA – часть процесса подготовки данных к ML-моделированию, когда после этапов выборки и очистки датасета выполняется генерация признаков (рис. 1.).

Рис. 1. Место EDA в Data Science

Кроме того, EDA позволяет Data Scientist’у убедиться в корректной интерпретации результатов и их применимости к желаемому бизнес-контексту. А бизнес-пользователи могут оперативно проверить правильность своих предположений, в т.ч. то, что они задают правильные вопросы. Таким образом, EDA играет роль средства валидации – оценки того, насколько данные соответствуют бизнес-целям. Это особенно важно при работе с Big Data, когда датасет собирается из множества различных источников с разными уровнями точности и детализации. На практике EDA даже приводит к интересным бизнес-инсайтам. Например, определение четкой зависимости суммы чека от времени суток, корреляция числа посетителей с погодными условиями и т.д. [4]

Математическую основу EDA составляют статистика и теория вероятностей, в частности, вероятностные распределения переменных, корреляционные матрицы, факторный анализ, дискриминантный анализ, многомерное шкалирование. В качестве практических инструментов для разведочного анализа используются специализированные математические программы (SAS, Matlab, KNIME, Weka, Orange), системы типа RStudio, оригинальные скрипты на Python и даже встроенные формулы табличных редакторов, таких как Excel и Google Sheets [5]. Подробнее инструменты EDA и визуализации данных рассмотрены далее.

Как показать данные: виды графиков

Выбирая наиболее подходящий вид графика для визуализации данных, следует, прежде всего, определить цель анализа и/или представления информации, например, [6]:

  • сравнить разные показатели;
  • продемонстрировать распределение данных – какие значения встречаются чаще или реже других;
  • показать состав и структуру;
  • выявить взаимосвязи между переменными.

Для этих целей используется более 20 видов различных диаграмм, от линейных графиков до корреляционных матриц. Выбор конкретной диаграммы для визуализации данных также зависит от числа анализируемых переменных и временных периодов (рис. 2.) [7].

Рис. 2. Многообразие диаграмм для визуализации данных

Читайте также:  Как вывести блох у кота народными способами

На практике в Data Science наиболее часто используются следующие виды графиков и диаграмм [8]:

  • гистограмма для визуализации распределения данных в рамках непрерывного интервала или ограниченного периода времени, определения концентрации значений, а также выявления предельных показателей, пропусков или отклонений (рис.3).

Рис. 3. Гистограмма

  • диаграмма рассеяния для выявления корреляции между двумя переменными (рис.4);

Рис. 4. Диаграмма рассеяния

  • диаграмма размаха (ящик с усами) для отображения групп числовых данных через квартили, что удобно при сравнении распределений между большим количеством датасетов (рис.5)

Рис. 5. Диаграмма размаха

  • тепловая матрица для многомерного анализа данных и выявления корреляций (рис.6)

Рис. 6. Тепловые матрицы для количественного и качественного анализа

  • пузырьковая диаграмма для сравнения и отображения взаимосвязей между разными переменными с помощью их местоположения и пропорций – часто используется для анализа паттернов и поиска корреляций (рис.7).

Рис. 7. Пузырьковая диаграмма

Правильно выбранный вид диаграммы для визуализации данных соответствует следующим критериям [1]:

  • краткость – возможность одновременно отобразить много разнотипных данных;
  • относительность и близость – способность демонстрировать кластеры, относительные размеры групп, их схожесть и различие, выпадающие значения;
  • концентрацию и контекст – возможность легко и оперативно взаимодействовать с выбранным объектом путем его интерактивного просмотра (отображение структуры и связей);
  • масштабируемость – возможность легко и быстро изменять размеры представления;
  • удобство пользователяза счет максимальной наглядности предоставления и поддержка интуитивных действий по выявлению закономерностей.

Инструменты визуализации данных

Современный рынок программного обеспечения предоставляет множество инструментов визуализации данных, от бесплатных интернет-сервисов до дорогих корпоративных пакетов: Excel, Google Sheets, Google Data Studio, RStudio, Tableau, Power BI, QlikView, OWOX BI Smart Data, SAS [6]. Большинство из них предоставляет не только встроенные средства для анализа датасетов, но и позволяет настраивать их и адаптировать исходный код к специфике отдельных проектов, а также создавать интерактивные динамические отчеты. Например, в [9] представлен подробный обзор целых 36 инструментов визуализации данных для различных прикладных задач, помимо EDA: картография, инфографика, создание интерактивных дэшбордов и т.д. Примечательно, что часть из них (Chart.js, Raw, Dygraphs, ZingChart, FusionCharts Suite XT, D3.js и многие другие) представляют собой плагины или библиотеки, которые можно интегрировать с другими средствами работы Data Scientist’a [9].

Интересен также сравнительный анализ наиболее популярных инструментов визуализации данных для маркетинговой аналитики, приведенный в [6] (рис. 8).

Рис. 8. Сравнительный анализ 5 популярных инструментов визуализации данных для маркетинговой аналитики

Хотя этот обзор больше относится к аналитике данных, чем непосредственно к Data Science и Big Data, он показывает еще одно важное применение визуализации – построение BI-дэшбордов для мониторинга различных бизнес-показателей (конверсия, характеристики пользователей и пр.) [6]. При проектировании дашбордов не стоит использовать все возможные виды диаграмм, стремясь по максимуму использовать все возможности визуализации: перегруженная витрина данных непонятна и сложна в эксплуатации. Пример удобного интерактивного дэшборда для ТОП-менеджера показан на рисунке 9 [2].

Рис. 9. Дашборд руководителя из Tableau

Заключение

Резюмируя использование методов и средств визуализации данных в Data Science и аналитике Big Data, можно сделать следующие выводы:

  • визуализация данных и инфографика – это не одно и то же;
  • визуализация нужна не только для наглядного представления результатов, но и для разработки предварительных гипотез, а также валидации исходных данных;
  • EDA или разведочный анализ данных – важный этап подготовки датасета к ML-моделированию и другим техникам Data Mining;
  • выбор графика для визуализации зависит от цели (сравнение переменных, выявление взаимосвязей, представление состава и структуры или демонстрация статистического распределения) и анализируемых категорий (многомерный анализ, временные ряды или корреляция нескольких показателей);
  • на современном рынке ПО имеется множество как бесплатных, так и коммерческих решений для визуализации данных – интернет-сервисы и локальные продукты, проприетарные и open-source;
  • существует целый ряд критериев и правил по выбору диаграмм для визуализации данных, в т.ч. в рамках построения интерактивных BI-дэшбордов, главное из которых – это удобство пользователя и возможность получения бизнес-инсайтов на основе представленной картинки.
Читайте также:  Как связать шапку кошку крючком для девочки простой способ

Источник

Визуализация данных: как подавать статистику широкой аудитории

Елена Соловьева, менеджер проектов в компании Лаборатория Касперского, специально для блога Нетологии написала статью о правильной и понятной визуализации данных. Статья участвует в конкурсе блога.

Почему необходимо подавать информацию в простой и понятной форме? Информация о клиентах, конкурентах и рынке поступает из разных источников. Статистика при этом может собираться вручную или автоматически.

Представьте, что вы получили описание действий клиентов на сайте в виде нумерованного списка на три страницы или в таблице на сто строк и десять столбцов. Сколько времени вам понадобится, чтобы разобраться в ситуации? А если информацию вам представят так?

По статистике, 60% людей воспринимают быстрее именно визуальную информацию. Мозгу легче понять, что ему хотят сказать, если представить данные в виде графиков, схем или иных графических элементов.

Четыре типа визуализации

Скотт Беринато, старший редактор HBR, выделяет четыре типа визуализации в зависимости от цели автора:

Цель: обучение, разъяснение. Используется в качестве замены развернутому описанию. Типичные примеры: организационные схемы и схемы бизнес-процессов.
Генерация идей.

Цель: решение проблемы, выяснение истины. Используется при мозговых штурмах. Типичное представление: ментальная карта.
Визуальное исследование.

Цель: глубинный анализ. Используется, чтобы лучше понять и проследить закономерности. Сюда относятся сложные многофакторные представления.
Рутинная визуализация.

Цель: сообщение, помещенное в контекст. Используется при составлении отчетов и презентаций для руководства и партнеров. Так мы информируем нашу аудиторию о положении вещей.

Определите цель и тип визуализации. У каждого типа свои принципы и инструменты. Если вы их смешаете, то не достигнете цели, а только запутаете аудиторию.

Принципы рутинной визуализации

Одно представление = одна идея

Если вы хотите показать, как в течение года росли продажи, не выводите с ними и динамику получения лидов или посещений сайта.

Выбор способа представления соответствует идее

Если вы показываете динамику, используйте диаграммы и временные шкалы, которые читаются сверху вниз или слева направо. Рассказывая о доле рынка, используйте круговые диаграммы. Не усложняйте и не применяйте гибридные виды диаграмм или представлений.

Данные в представлении должны хорошо читаться

Проверьте текстовые надписи и особенно легенды. Исправьте мелкие шрифты, залезающие друг на друга надписи, развернутые под углом к горизонтальной оси легенды. Избегайте громоздких длинных легенд и заголовков.

Обратите внимание на цвета. Не используйте оттенки одного цвета. Применяйте разные цвета, но избегайте «лоскутного одеяла». В представлении должно быть не более шести разных цветов.

Выбор способа представления соответствует аудитории

Если вы делаете доклад для аудитории, далекой от аналитики, используйте простые, интуитивно понятные представления. Выясните заранее, возможно, у вашей аудитории есть свои предпочтения к способу подачи информации.

Представление не порождает вопросы

Если вам задали вопрос типа «что значит тот красный кружок вверху», вы перемудрили.

Попросите друзей, родственников или коллег, не знакомых с вашими данными, рассказать, что они видят на представлении. Если у них возникают вопросы или ошибки при толковании, переделайте представление.

Не усложняйте. Отфильтруйте данные, которые нужно представить, от всего массива, которым владеете.

Инструменты рутинной визуализации и ошибки при работе с ними

Для рутинной визуализации используйте простейшие графики и диаграммы:

Читайте также:  Способы изменения веса физика

1. Гистограммы — столбчатые диаграммы.

2. Графики — представление непрерывного изменения данных.

3. Круговые и кольцевые диаграммы — представление долей относительно целого.

3. Линейчатые диаграммы — столбчатые диаграммы с отображением категорий по вертикальной оси.

5. Диаграммы с областями — линейчатые диаграммы с заполненными цветом областями.

С этими диаграммами и графиками знакомо большинство пользователей, их легко строить и читать. Но, несмотря на это, здесь есть вероятность ошибок, которые запутают аудиторию:

Не забывайте про легенды. Удобнее их поместить на столбец гистограммы или же вниз диаграммы. Так вы сэкономите графику место, и его легче будет прочесть.

Оцените необходимость комментариев и подписей к величинам. К примеру, у вас в марте начался резкий спад посещений сайта. Возможно, в том месяце вы перестали использовать таргетированную рекламу. Укажите это на графике коротким комментарием. Не переусердствуйте. Отображать нужно только ту информацию, которая необходима для понимания представления.

Не используйте 3D представления. Они утяжеляют графики и мешают пониманию.

Не обрезайте оси координат. Диаграмма не может существовать сама по себе. Ось координат должна начинаться с 0 — начальной точки отсчета.

Если вы используете круговые, кольцевые диаграммы, или линейчатые и столбчатые диаграммы с накоплением, убедитесь, что в сумме их части дают именно 100%. Ошибки часто возникают при автоматическом округлении исходных значений.

Без необходимости не переворачивайте вертикальную ось. Пользователи привыкли к одному и тому же представлению известных им диаграмм. Кардинально изменив представление, вы запутаете аудиторию.

Не заставляйте вашу аудиторию вглядываться и перечитывать диаграмму. Чем дольше представление декодируется, тем вероятнее ошибки в толковании.

Перспективы развития визуализации: интернет вещей

Интернет вещей производит беспрецедентное количество данных о нас и окружающем мире. Грамотно визуализировав этот массив, можно нарисовать и выявить закономерности и тенденции, о которых мы даже не подозревали.

К примеру, фитнес-браслеты собирают большое количество информации о нашем организме. Конвертировав ее в представление, мы проследим, как, когда и на что реагирует наш организм. Важность подобных знаний не вызывает сомнений.

Визуализация данных сейчас в центре внимания многих маркетологов, аналитиков и разработчиков. У IT-гигантов: Oracle, Microsoft, IBM, уже разработаны для этого продукты. Компании Tableau, Qlik специализируются исключительно на визуализации данных.

Выводы

Главное, представить данные так, чтобы с ними было легко работать. Как это сделать?

Первый шаг: определитесь с целью визуализации. Это для доклада руководству или схема бизнес-процесса?

Второй шаг: определите инструменты, которые соответствуют вашей цели. Для отчета руководству, используйте диаграммы и графики. Для схем бизнес-процессов, работайте с различными нотациями.

Третий шаг: постройте представление.

Четвертый шаг: убедитесь, что ваше представление не противоречит принципам визуализации. Все ли понятно? Не слишком ли много данных на одном представлении? Привычно ли оно для вашей аудитории?

Пятый шаг: проверьте на наличие распространенных ошибок. На месте ли легенды? Все ли оси отображены корректно?

Шестой шаг: покажите представление людям, которые не знакомы с вашими данными, задайте им вопросы.

Седьмой шаг: скорректируйте представление по замечаниям.

Научившись визуализировать на бытовом уровне, вы сможете быстрее понять принципы визуализации более сложных данных. А это открывает большие и интересные перспективы.

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.

Источник

Оцените статью
Разные способы