Визуально информация может быть представлена способами
Виды информации. Представление информации.
По способу восприятия информации человеком можно выделить визуальную (зрительную), аудиальную (звуковую), обонятельную (запахи) вкусовую, тактильную (осязательную), вестибулярную и мышечную информацию (рис.3).
Визуальную информацию люди воспринимают с помощью глаз. Человек может увидеть объект или явление, букву или цифру, картину или фильм, схему или карту, жест или танец. Аудиальную информацию люди воспринимают с помощью ушей. Человек может услышать произвольные звуки, шум, музыку, пение и речь. Обонятельную информацию, или запахи, человек воспринимает с помощью носа. Запах можно охарактеризовать как терпкий или пряный, приятный или неприятный, тяжелый или легкий. Вкусовую информацию человек воспринимает с помощью языка. Вкус может быть горький или сладкий, кислый или соленый. Тактильную информацию человек воспринимает кожей. Прикасаясь к предмету, можно определить его температуру (холодный или горячий) и вид поверхности (гладкая или шероховатая, мокрая или сухая). Вестибулярную информацию человек воспринимает с помощью вестибулярного аппарата, который отслеживает положение тела человека в трехмерном пространстве. Летя в самолете и не видя горизонта, человек может определить, куда и как он перемещается: вверх или вниз, вправо или влево, ускоренно или замедленно. Мышечную информацию люди воспринимают с помощью мышц. Закрыв глаза, человек не пронесет ложку с супом мимо своего рта, может дотронуться указательным пальцем до своего носа, сравнить массу гирь, одинаковых на ощупь.
Воспринимать информацию могут не только люди, но и животные, и растения. Однако в отличие от людей, восприятие информации животными и растениями имеет свои особенности. Например, слоны способны воспринимать звуки, которые не слышит человек, у собак лучше всего развито обоняние, у летучих мышей – слух, а растения могут получать информацию с помощью корней и листьев. Несмотря на эти особенности, в живой природе, так же как и в мире людей, информация играет важную роль в обеспечении жизненных процессов. Воспринимаемую с помощью органов чувств информацию человек стремится выразить так, чтобы она была понятна другим. Одну и ту же информацию, в зависимости от цели деятельности, можно выразить разными способами и представить в разной форме.
По форме представления принято выделять числовую, текстовую, графическую, звуковую и комбинированную информацию (рис. 4).
Рис. 4. Виды информации по форме представления
Например, если человек хочет выучить слова песни наизусть, то, скорее всего, он запишет стихи с помощью букв. В этом случае информация будет представлена в текстовой форме. Запомнить мелодию песни позволит прослушивание этой песни в исполнении певца или музыканта. В этом случае информация будет представлена в звуковой форме. Образ, навеянный стихами или мелодией, можно изобразить в графической форме с помощью рисунка.
Для того чтобы выяснить количество поклонников исполнителя песни, необходимо их подсчитать и результат представить в числовой форме. Каждая из этих форм представления информации имеет свои особенности. Графическая информация наиболее доступна, так как срезу передает визуальный образ.
С помощью текстовой и звуковой информации можно представить исчерпывающие разъяснения. Числовая информация дает возможность проводить различные сравнения и вычисления. Поэтому чаще всего информацию представляют в комбинированной форме. Частным случаем комбинированной информации является мультимедийная информация , когда текстовая и числовая информация сочетается со звуковой и графической информацией, с видеоизображением .
Для представления информации человек использует различные знаки. Один и тот же знак может иметь разный смысл. Если человек наделил знак смыслом, то этот знак называют символом
Например, нарисованный овал может означать или букву «О», или цифру ноль, или химический элемент кислород, или геометрическую фигуру. В нашем примере нарисованный овал – это знак. Буква, цифра и обозначение химического элемента являются символами.
Для того чтобы понимать смысл информации, представленной с помощью символов, человеку необходимо знать не только символы, но и правила составления сообщений из этих символов. Говоря другими словами, человеку необходимо знать язык. Язык может быть разговорным, языком рисунков, мимики и жестов, языком науки и искусства.
Выделяют естественные (разговорные) и искусственные языки (рис. 5).
Естественные языки исторически сложились в процессе развития человеческой цивилизации. К естественным языкам относятся русский, английский, китайский и многие другие языки. В мире насчитывается более 10 тыс. разных языков, диалектов и наречий.
Искусственные языки специально созданы для профессионального применения в какой-либо области человеческой деятельности. Некоторые искусственные языки складывались в течение длительного исторического периода, например язык математических обозначений. С этой точки зрения они мало отличаются от естественных языков. Примерами искусственных языков являются эсперанто, языки программирования, язык математики, язык химии, язык логики, язык флажков на флоте, язык дорожных знаков.
Некоторые естественные языки имеют искусственно созданные алфавиты. Так, например, авторами русского языка являются Кирилл и Мефодий.
Представление информации с помощью определенного языка всегда связано с алфавитом. Алфавит содержит конечный набор символов, из которых можно составить как угодно много слов. Все символы в алфавите упорядочены.
Количество символов в алфавите называют мощность алфавита.
Представленную информацию можно преобразовать из одной последовательности знаков в другую, не задумываясь о смысле сообщения. Такой процесс преобразования сообщения называется кодированием. Обратный процессом кодированию является процесс декодирования. Для того чтобы выполнить кодирование или декодирование, необходимо знать правила перевода одних знаков в другие знаки. Говоря другими словами, надо знать код или шифр.
По мере развития средств появились различные способы кодирования информации. Например, кодирование с помощью азбуки (кода) Морзе (длительный сигнал – тире, короткий сигнал – точка, нет сигнала – пауза), с помощью двоичного кода (нет сигнала – 0, есть сигнал – 1). Кодирование используется для представления информации в такой форме, которая будет наиболее удобна для работы человека или технического устройства. Например, человеку удобно и привычно работать с десятичными числами, а компьютер настроен на работу с двоичными числами. Поэтому десятичное число, введенное с помощью клавиатуры компьютера, кодируется в двоичное число. При выводе числа на экран монитора происходит декодирование из двоичного числа в десятичное число. Кодирование информации необходимо не только для ее рационального представления, но и для ее эффективной защиты. Не случайно другим примером кода является пин-код сотового телефона или банковской карточки, а также код, используемый в качестве ключа от цифрового замка дорожной сумки.
Источник
Способы визуального представления данных. Методы визуализации
«Говорят, один рисунок стоит тысячи слов, и это действительно так, но при условии, что рисунок хороший.» Боумена [65]
С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining , становится все сложнее «переваривать» и интерпретировать полученные результаты. А, как известно, одно из положений Data Mining — поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.
В 1987 году по инициативе ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics , в связи с необходимостью использования новых методов, средств и технологий данных, были сформулированы соответствующие задачи направления визуализации.
К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.
Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.
Традиционные методы визуализации могут находить следующее применение:
- представлять пользователю информацию в наглядном виде;
- компактно описывать закономерности, присущие исходному набору данных;
- снижать размерность или сжимать информацию;
- восстанавливать пробелы в наборе данных;
- находить шумы и выбросы в наборе данных.
Визуализация инструментов Data Mining
Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В предыдущих лекциях мы рассмотрели ряд методов Data Mining . В ходе использования каждого из методов, а точнее, его программной реализации, мы получали некие визуализаторы , при помощи которых нам удавалось интерпретировать результаты, полученные в результате работы соответствующих методов и алгоритмов.
- Для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности.
- Для нейронных сетей в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.
- Для карт Кохонена: карты входов , выходов, другие специфические карты.
- Для линейной регрессии в качестве визуализатора выступает линия регрессии.
- Для кластеризации: дендрограммы , диаграммы рассеивания.
Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода.
Все эти способы визуального представления или отображения данных могут выполнять одну из функций:
- являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);
- помогают интерпретировать полученный результат;
- являются средством оценки качества построенной модели;
- сочетают перечисленные выше функции (дерево решений, дендрограмма).
Визуализация Data Mining моделей
Первая функция (иллюстрация построения модели), по сути, является визуализацией Data Mining модели . Существует много различных способов представления моделей, но графическое ее представление дает пользователю максимальную «ценность». Пользователь , в большинстве случаев, не является специалистом в моделировании, чаще всего он эксперт в своей предметной области . Поэтому модель Data Mining должна быть представлена на наиболее естественном для него языке или, хотя бы, содержать минимальное количество различных математических и технических элементов.
Таким образом, доступность является одной из основных характеристик модели Data Mining . Несмотря на это, существует и такой распространенный и наиболее простой способ представления модели, как » черный ящик «. В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако, несмотря на непонимание, он получает результат — выявленные закономерности. Классическим примером такой модели является модель нейронной сети.
Другой способ представления модели — представление ее в интуитивном, понятном виде. В этом случае пользователь действительно может понимать то, что происходит «внутри» модели. Таким образом, можно обеспечить его непосредственное участие в процессе. Такие модели обеспечивают пользователю возможность обсуждать ее логику с коллегами, клиентами и другими пользователями, или объяснять ее.
Понимание модели ведет к пониманию ее содержания. В результате понимания возрастает доверие к модели. Классическим примером является дерево решений. Построенное дерево решений действительно улучшает понимание модели, т.е. используемого инструмента Data Mining .
Кроме понимания, такие модели обеспечивают пользователя возможностью взаимодействовать с моделью, задавать ей вопросы и получать ответы. Примером такого взаимодействия является средство «что, если». При помощи диалога «система- пользователь » пользователь может получить понимание модели.
Теперь перейдем к функциям, которые помогают интерпретировать и оценить результаты построения Data Mining моделей. Это всевозможные графики, диаграммы, таблицы, списки и т.д.
Примерами средств визуализации, при помощи которых можно оценить качество модели, являются диаграмма рассеивания, таблица сопряженности, график изменения величины ошибки.
Диаграмма рассеивания представляет собой график отклонения значений, прогнозируемых при помощи модели, от реальных. Эти диаграммы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по окончанию процесса построения модели.
Таблица сопряженности используется для оценки результатов классификации. Такие таблицы применяются для различных методов классификации. Они уже использовались нами в предыдущих лекциях. Оценка качества построенной модели возможно только по окончанию процесса построения модели.
График изменения величины ошибки. График демонстрирует изменение величины ошибки в процессе работы модели. Например, в процессе работы нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и остановить обучение для недопущения » переобучения » сети. Здесь оценка качества модели и его изменения может оцениваться непосредственно в процессе построения модели.
Примерами средств визуализации, которые помогают интерпретировать результат, являются: линия тренда в линейной регрессии, карты Кохонена, диаграмма рассеивания в кластерном анализе.
Источник