Визуальные способы аналитики исторический поток пространственный поток семантическая сеть

Визуализация данных

Развитые средства визуализации данных стали неотъемлемой частью корпоративных BI-платформ. Некоторые вендоры, такие, например, как Tableau, именно визуализацию сделали краеугольным камнем своих аналитических систем. Тренд пронизывает рынок систем аналитики полностью: сегодня даже простейшие аналитические инструменты для конечных пользователей зачастую опираются именно на визуальное представление данных.

Содержание

Один из экспертов в области визуализации данных Эдвард Тафт (Edward Tufte) однажды сказал: «Мир является сложным, динамичным, многомерным, а бумага статичной и плоской. Как мы можем передать все богатство визуального представления об этом мире на этой равнине?». В действительности, развитые средства визуализации сегодня являются обязательным компонентов как промышленных BI-платформ, так и небольших аналитических решений для конечных пользователей.

Визуализация данных, по мнению экспертов Forrester [1] , необходима компании в тех случаях, когда:

  • Невозможно увидеть паттерн, не прибегая к визуализации данных. Все потому, что традиционные отчеты, строки, колонки и таблицы не дают понимание общей картины в целом, что может привести к неверной интерпретации данных.
  • Когда значительные массивы данных невозможно разместить на одном экране. Как бы ни был мелок шрифт, сотни и тысячи строк данных на одном экране будут абсолютно не информативны в сравнении с визуальных представлением этой же самой информации. В своей книге The Visual Display of Quantitative Information [2] Эдвард Тафт приводит пример отображения 21 тыс. значений данных на карте США, поместившейся на одном экране.
  • Невозможно передать глубину данных посредством информации, представленной на одном экране. Например, в фармацевтике при анализе свойств тех или иных препаратов используются сотни различных психофизических параметров человека, охватить которые в линейном виде не представляется возможным. Однако медицинские эксперты присваивают каждому параметру разноцветные пиксели и помещают их в динамические модели, где любой участок при необходимости может быть увеличен и проанализирован детально.

Пример визуализации «Симфонии №5» Людвига Ван Бетховена

Многие компании на протяжении долгих лет эффективно используют такие простейшие средства визуализации данных как диаграммы и гистограммы, в дальнейшем развитие технологий визуального представления информации позволило сделать работу с ними более динамичной и обрабатывать сведения фактически в режиме реального времени. Развитая бизнес-графика включает в себя различные дэшборды и чарты, которые могут обновляться автоматически согласно заданным настройкам.

Пример визуализации: связи между темами докладов разных стран в рамках Всемирного экономического форума

Пример представления данных в виде дэшборда

Среди многообразия отдельных инструментов и систем с функциями визуализации данных Forrester Research также выделяет отдельно платформы продвинутой дата визуализации или ADV (advanced data visualization). Такие платформы обладают более развитыми средствами и обеспечивают более комплексное представление информации. Вот их главные определяющие отличия:

  • Динамический контент. Это означает, что визуальное представление информации изменяется по мере апдейта данных в базе. Статическая визуализация, которую можно создать в большинстве офисных программ, такой возможности не предоставляет.
  • Визуальные запросы. Это возможность запрашивать и перезапрашивать данные путем простого манипулирования частями графики или диаграмм (нажатием на кнопки, например, можно развернуть подробности) или специальных визуальных компонентов (выпадающих списков, владок и прочего).
  • Мультиданные. Типичные статические средства визуализации не могут связать и отобразить между собой более чем несколько параметров данных. В продвинутых платформах визуализации, напротив, учитываются множественные данные различных типов, прочно завязанные друг с другом, так что при обновлении какой-то части информация автоматически меняется на всех других панелях.
  • Анимированная визуализация. Некоторые параметры, например, время, могут иметь сотни и сотни значений, так что отслеживание общей картины для каждого параметра в отдельности может стать достаточно трудоемким заданием. В таких случаях на помощь приходит анимация, позволяющая запустить переход от параметра к параметру в автоматическом режиме.
  • Персонализация. То, что интуитивно понятно и необходимо одному пользователю, может совершенно не подойти другому. Кроме того, в большинстве компаний для защиты информации и минимизации рисков предусмотрены различные уровни доступа к корпоративным данным. Платформы ADV позволяют автоматически применять персональные настройки и предпочтения.
  • Использование оповещений. Мощные ADV платформы могут подавать сигнал, когда не в состоянии корректно обработать большие массивы данных. Или, например, сигнал подается в тот момент, когда найдено какое-то критическое значение, причем оповещение может подаваться в том числе с помощью электронной почты и текстовых сообщений.
Читайте также:  По способу управления информационные технологии могут быть

Лидеры рынка платформ продвинутой визуалиации данных

Forrester Research, 2012

По данным Forrester Research, к лидерам на рынке ADV платформ относятся такие компании как Tableau, IBM, Information Builders, SAS, SAP, Tibco, и Oracle. Решения этих вендоров предоставляют значительные возможности для визуализации, хорошо сбалансированные для создания различных запросов.

Сильными игроками на этом рынке также являются Microsoft, MicroStrategy, Actuate Software, Qlik (QlikTech), SpagoBI и Panorama Software. Альтернативой мега вендорам также являются Jaspersoft и Pentaho, чьи решения можно использовать по подписке.

Как рассказал TAdviser эксперт Георгий Нанеишвили, директор по развитию партнерской сети Qlik, российские компании в качестве средств визуализации предпочитают традиционно таблицы – простые и сводные.

«Красивые графики хорошо показывать на презентациях, но в реальной работе для аналитиков критически важно моментально работать с огромным объемом информации, динамически накладывая фильтры и получая отчеты в табличной форме. Никак мы не уйдем от технологии анализа данных методом пристального взгляда. Да и чувствуется острый недостаток квалифицированных инфографов», — пояснил он.

Так что позволить себе действительно эффективное решение, которое одним взглядом позволят оценить сложившуюся ситуацию и исторические тренды, провести сравнительный анализ, геоанализ – могут позволить себе не так много российских компаний, полагает он.

Причем дело не том, что подобных решений нет: наоборот, на это ориентированы все современные BI-инструменты, а особо продвинутые позволяют это делать даже рядовым пользователям. Эксперт полагает, что пока еще нет понимания и достаточной квалификации у самих пользователей.

Прогноз по тенденциям в медицинской визуализации

В декабре 2017 года генеральный директор Ambra Health Моррис Паннер (Morris Panner) представил прогноз по технологическим тенденциям, которые, по его мнению, изменят медицинскую визуализацию в 2018 году. Подробнее здесь.

Визуализация больших данных

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций. Казалось бы, ничего нового здесь придумать уже невозможно, но на самом деле это не так. В качестве иллюстрации приводим несколько прогрессивных методов визуализации, относительно недавно получивших распространение.

Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов.

Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров – важная составляющая кластерного анализа.

Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной – вклад каждого из соавторов, т.е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.

Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия – тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.

Обработка операционных баз данных и многомерных хранилищ

  • Транзакционные тяжелонагруженные базы данных
  • Реляционные и многомерные хранилища
  • Прямые обращения к API систем
  • Работа с коннекторами
  • Обработка плоских файлов (CSV, Excel, XML и т.п.)

Построение аналитических моделей в памяти

  • •Принципиально другой подход
  • •Нереляционные базы данных
  • •Компрессия
  • •Скорость доступа
  • •Индексация и поиск
  • •Средства визуализации

Типичные проблемы визуализации и расчеты «на лету»

  • Попытка сформировать перегруженный элементами интерфейс
  • Избыточность данных (миллионы строк в табличных и графических элементах)
  • Динамический расчет показателей
  • Сложные вычисления
  • Условное форматирование
  • Неоптимальные выражения, приводящие к полному сканированию таблиц
  • Расчеты по большим объемам первичных данных

Инструментарий, комбинирующий ETL-инструменты и средства визуализации

  • SQL запросы
  • Работа с хранимыми процедурами
  • Работа с плоскими файлами как с таблицами базы
  • Скрипты преобразования, обогащения и очистки данных
  • Работа с функциями
  • Формирование новых измерений и значений
  • Подготовка реляционных связей между сущностями

Прогнозная и статистическая аналитика

  • Обработка данных, формирование локальной прогнозной модели, реализация математических алгоритмов
  • Передача данных и использование внешних инструментов
  • Работа с СУБД и использование функций обработки больших массивов данных
  • Многопоточная обработка
  • Сравнительная аналитика
  • What-If анализ и параметризация отчетов
Читайте также:  Способ борьбы с болезнетворными бактериями при помощи обработки химически активными веществами

Источник

11 правил визуализации данных

Ольга Базалева, создатель Data Vis и автор блога, написала статью специально для Нетологии о самых важных принципах визуализации. Статья участвует в конкурсе блога.

Хотите выделяться на фоне конкурентов? Чтобы ваши статьи, отчеты, презентации или посты в социальных сетях были профессиональными, интересными и доступными широкой аудитории? Используйте визуализацию данных!

Я более семи лет отработала в крупнейших медиакомпаниях и рекламных агентствах, на счету Афиша, Рамблер, РБК, создала сайт с наглядными обзорами рынков и собственный блог про визуализацию данных. Поэтому я очень хорошо понимаю то, о чем пойдет речь ниже.

Сегодня визуализация особенно важна, так как люди теряются в обилии окружающей информации и на ее восприятие тратится слишком много времени. Поэтому скучные непонятные тексты часто остаются без внимания. Читатель не будет тратить время, чтобы в них разобраться.

Визуально представленная информация в сравнении с обычным текстом и таблицами:

  • привлекает намного больше аудитории;
  • увеличивает вовлечение читателей;
  • быстрее воспринимается;

  • легче запоминается.

Существует множество способов визуализации. В этой статье речь пойдет о самых распространенных и доступных из них — о графиках и диаграммах. Неграмотное использование даже самых простых графиков может испортить впечатление о вашей работе и о вас как об эксперте. Чтобы этого не случилось, придерживайтесь основных правил визуализации данных.

ПРАВИЛО 1. ПРАВИЛЬНЫЙ ТИП ГРАФИКА

Используйте правильный тип и формат визуализации.

Главная цель визуализации — упростить и ускорить восприятие информации. Выбранный формат и тип графика должны этому способствовать, а не мешать.

Например, если в круговой диаграмме больше трех-пяти значений, график становится нечитабельным. Лучше в таком случае выбрать обычную линейчатую диаграмму.
Еще пример неудачного использования круговой диаграммы, когда сумма категорий не равна 100%. Это грубейшая ошибка, так как данные просто-напросто искажаются.

Не менее важно следить, чтобы не нарушались общепринятые стандарты. Временные оси (года, месяца, кварталы) всегда должны располагаться горизонтально слева направо, это интуитивно понятно. Если же их расположить вертикально сверху вниз, это будет сильно затруднять понимание.

Помните, что неудачно выбранный тип и формат визуализации сразу снижает доверие к представленной информации.

ПРАВИЛО 2. ЛОГИЧЕСКИЙ ПОРЯДОК

Располагайте данные логично.

Обязательно располагайте данные в логическом порядке. Чаще всего это последовательно от большего к меньшему.

Если вы показываете на диаграмме результаты опроса, где есть деление на положительные и отрицательные ответы, то логичнее их выстроить в таком порядке: «Да, Скорее да, Нет, Скорее нет, Затрудняюсь ответить».
Данные можно выстраивать и от меньшего к большему, если это соответствует цели вашего сообщения. Цель всегда первична. Прежде чем приступать к построению графика, четко сформулируйте, какую идею вы хотите донести до читателей, на что хотите обратить внимание.

ПРАВИЛО 3. ПРОСТОЙ ДИЗАЙН

Дизайн не должен препятствовать пониманию или искажать данные.

Избегайте бесполезных элементов дизайна, таких как градиенты, тени, эффекты 3D. Они только отвлекают внимание читателя от сути вашего сообщения.

Ваш график не становится красивым и внушительным от того, что он нарисован объемным. Это могло удивить лет двадцать назад, на заре расцвета Excel, когда еще мало кто умел строить диаграммы. Более того, 3D–графики могут вызвать оптический обман.

Помните, если визуализация выполнена красиво, это еще не значит, что она выполнена качественно. Принципы хорошего дизайна: ясность, простота и минимализм.

ПРАВИЛО 4. ЛЕГКОЕ СРАВНЕНИЕ ДАННЫХ

Визуализируйте данные так, чтобы их можно было легко сравнивать.

Одна из главных целей визуализации – удобное и наглядное сравнение двух и более показателей.

Поэтому, чтобы ваши диаграммы были ценными и полезными, показывайте соотношение между данными. Если разбить однотипную информацию на много отдельных графиков, визуализация становится бессмысленной.

Именно быстрое понимание самых высоких и самых низких значений, тенденций и корреляций является главным преимуществом визуализации в сравнении с обычной таблицей или текстом. Диаграммы должны гораздо быстрее и яснее передавать ваши идеи. Если это не так, меняйте тип графика.

ПРАВИЛО 5. МИНИМУМ ЭЛЕМЕНТОВ

На диаграмме должны быть только необходимые элементы.

Убирайте с ваших графиков и диаграмм все неинформативные элементы, оставляйте только необходимые.

Загромождение ненужной информацией затрудняет восприятие.

Например, если есть подписи значений, то линии сетки и ось не нужны, так как это дублирование информации и является графическим «мусором». Основные и вспомогательные линии сетки, если они все же необходимы, должны быть простыми и не бросающимися в глаза. Акцент всегда должен быть на основной идее, а не на вспомогательных элементах. Если следовать этому совету, то нужная информация сразу выходит на первый план.

Читайте также:  Электролобзик способы крепления пилки

ПРАВИЛО 6. НЕ ПЕРЕГРУЖАЙТЕ ИНФОРМАЦИЕЙ

Следите, чтобы не было визуальной загроможденности.

Не пытайтесь уместить на одну диаграмму всю имеющуюся у вас информацию ради того, чтобы ваш график казался умным и значительным. Визуальный ряд не должен быть перегружен сложными и многоярусными диаграммами.

Когда необходимо визуализировать много разных типов данных и категорий, целесообразнее разделять диаграмму на несколько частей. Например, если на линейном графике больше четырех-пяти линий или на столбиковой диаграмме больше двух категорий, не стоит умещать их на одном графике.

ПРАВИЛО 7. ПОНЯТНЫЙ ФОРМАТ ЧИСЕЛ

Числа должны быть с разделителями разрядов и без лишних знаков после запятой.

В больших числах всегда разделяйте разряды: 10 000 000, а не 10000000, иначе цифры становятся нечитабельными.

Также не используйте знаки после запятой без осознанной необходимости. И следите, чтобы формат был единый. Если вы решили показать один знак после запятой, то сделайте так для всех подписей данных, а не выборочно: где-то два знака, где-то три, а где-то без единого знака.

ПРАВИЛО 8. НАЗВАНИЕ И ПОДПИСИ

У диаграммы должно быть название и полная легенда.

Следите, чтобы всегда у вашей диаграммы было полное понятное название и все необходимые подписи, иначе появляется риск неверного истолкования.

Всегда должен быть понятен период и единицы измерения. Не надейтесь, что пользователь вашего графика догадается об этом из контекста. Чтобы удостовериться, что данные будут верно интерпретированы, встаньте на место читателя, который видит вашу диаграмму впервые. Все должно быть предельно чётко, у читателя не должно остаться ни одного сомнения по поводу трактовки представленных данных.

Помните, что ваша задача при создании графиков и диаграмм — упростить восприятие данных, а не вызвать лишние вопросы.

ПРАВИЛО 9. ОБЩЕПРИНЯТЫЕ ЦВЕТОВЫЕ РЕШЕНИЯ

Не нарушайте общепринятое использование того или иного цвета.

Есть несколько основных категорий, которые у нас всегда ассоциируются с определенным цветом:

  1. положительные и отрицательные значения: зелёный и красный;
  2. да/нет, согласен/не согласен: зелёный и красный;
  3. мужчины и женщины: голубой и розовый;
  4. прочее/другое/остальное/нет ответа/затрудняюсь ответить — серый цвет.

Если показывать данные категории на диаграммах в ожидаемой цветовой гамме, то пользователю даже не надо смотреть на легенду, без этого ясно, какой цвет что обозначает. Не пренебрегайте этим правилом, оно очень простое и логичное, однако в интернете часто встречаются примеры его игнорирования.

Есть хороший прием использования цвета для сравнения показателей текущего года и прошедшего — делать прошедший год более бледным, а текущий более ярким. При этом оба года лучше показывать в оттенках одного цвета, потому что речь идет про один и тот же показатель.

ПРАВИЛО 10. МИНИМУМ ТИПОВ ДИАГРАММ

Используйте один вид диаграммы для однотипных данных.

Избегайте разнообразия ради разнообразия.

Это не всегда красиво, но всегда бесполезно. Для однотипных данных лучше выбирать один вид диаграммы.

Например, когда вы показываете последовательно ответы на вопросы исследования или динамику продаж по нескольким магазинам, не включайте фантазию, используйте графики одного типа. Читателю необходимо время, чтобы привыкнуть к каждому новому виду диаграммы и разобраться, что означает та или иная линия, кружок или столбик.

ПРАВИЛО 11. ЕДИНАЯ ЦВЕТОВАЯ ПАЛИТРА

Придерживайтесь одной цветовой гаммы.

Визуальные элементы (графики, диаграммы, схемы) на протяжении всего исследования или отчета должны быть выполнены в одной цветовой гамме.

Если же вы исследовательская компания, то цветовая палитра должна быть единой и во всех исследованиях, для соблюдения фирменного стиля. Если вы свой отчет дополняете графиками из других исследований, их необходимо перерисовывать, иначе они сильно врезаются в общую картину и портят восприятие. Во-первых, у них наверняка другая цветовая гамма, во-вторых, часто качество картинок не самое лучшее и это сразу бросается в глаза.

Перерисовать график в стиле компании займет всего 10–20 минут, а отчет будет смотреться более целостным и качественным. Таким образом, именно вы интуитивно будете восприниматься создателем информации и экспертом, даже если укажете другой источник данных, что, кстати говоря, также всегда необходимо делать.

Не игнорируйте эти простые, но очень важные правила визуализации. Берегите своих читателей. Никто не любит чувствовать себя глупо, рассматривая непонятные или нагроможденные графики и диаграммы.

А вы сами при виде странных диаграмм на конференциях или совещаниях, не задавались вопросом: «Это я один такой несообразительный, что ничего не понимаю?» Поверьте, вы не одиноки!

Источник

Оцените статью
Разные способы