Что означает вероятный способ измерения информации
Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.
Вопрос: «Как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку определять информацию можно по-разному, то и способы измерения тоже могут быть разными.
Содержательный подход к измерению информации.
Для человека информация — это знания человека. Рассмотрим вопрос с этой точки зрения.
Получение новой информации приводит к расширению знаний. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.
Отсюда следует вывод, что сообщение информативно (т.е. содержит ненулевую информацию), если оно пополняет знания человека. Например, прогноз погоды на завтра — информативное сообщение, а сообщение о вчерашней погоде неинформативно, т.к. нам это уже известно.
Нетрудно понять, что информативность одного и того же сообщения может быть разной для разных людей. Например: «2×2=4» информативно для первоклассника, изучающего таблицу умножения, и неинформативно для старшеклассника.
Но для того чтобы сообщение было информативно оно должно еще быть понятно. Быть понятным, значит быть логически связанным с предыдущими знаниями человека. Определение «значение определенного интеграла равно разности значений первообразной подынтегральной функции на верхнем и на нижнем пределах», скорее всего, не пополнит знания и старшеклассника, т.к. оно ему не понятно. Для того, чтобы понять данное определение, нужно закончить изучение элементарной математики и знать начала высшей.
Получение всяких знаний должно идти от простого к сложному. И тогда каждое новое сообщение будет в то же время понятным, а значит, будет нести информацию для человека.
Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными.
Алфавитный подход к измерению информации.
А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом.
При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.
Полное количество символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.
При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.
При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации. Интересно, что сама единица измерения информации «бит» получила свое название от английского сочетания «binary digit» — «двоичная цифра».
1 бит — это минимальная единица измерения информации!
Один символ алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название — байт.
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.
В любой системе единиц измерения существуют основные единицы и производные от них.
Для измерения больших объемов информации используются следующие производные от байта единицы:
Источник
Вероятностный подход измерения информации
Информация нуждается в измерении. На практике количество информации измеряется с точки зрения синтаксической адекватности. Исторически сложились два подхода к измерению информации: вероятностный и объемный. В 1940-х гг. К. Шеннон предложил вероятностный подход, а работы по созданию ЭВМ способствовали развитию объемного подхода.
Рассмотрим вероятностный подход к измерению количества информации.
Пусть системаа может принимать одно из N состояний в каждый момент времени, причем каждое из состояний равновероятно. Например, в качестве системы могут выступать опыты с подбрасыванием монеты (N = 2) или бросанием игральной кости (N= 6).Количество информации системы а вычисляется по формуле, предложенной Р. Хартли:H = H(a) = log2N= lnN/ln2.При N =2 количество информации минимально и равно Н = 1. Поэтому в качестве единицы информации принимается количество информации, связанное с двумя равновероятными состояниями системы, например: «орел» — «решка», «ложь» — «истина». Такая единица количества информации называется бит.Введем понятие вероятности. Вероятность событияА — это отношение числа случаев М, благоприятствующих событию А, к общему количеству случаев N:
Пример 1.Найти вероятность выпадения числа 6 при бросании кости.Решение. Всего граней у кости N = 6. Число 6 присутствует только на одной грани.
|
Следовательно, вероятность выпадения числа 6 при бросании кости: Р=M/N/
Пример 2.Найти вероятность выпадения числа, большего 3, при бросании кости.
Решение. Всего граней у кости N = 6. Чисел, больших 3, на гранях кости М= 3.
|
Следовательно, вероятность выпадения числа, большего 3, при бросании кости: P=M/N=3/6=1/2. Если N состояний системы не равновероятны, т.е. система находится в i-м состоянии с вероятностью Pi и при этом все состояния системы образуют полную группу событий, т.е. сумма вероятностей равна: , то используются следующие формулы, предложенные Шенноном. Для определения количества информации:a)в одном (i-м) состоянии системы H=Log2 (1/
);b)среднего количества информации во всех состояниях системы:
H=-
Из приведенных выражений следует, что количество информации максимально, если состояния системы равновероятны.
Объемный подход
Объем данных V в сообщении измеряется количеством символов (разрядов) в этом сообщении. В информатике в основном используется двоичная система счисления, т.е. все числа представляются двумя цифрами: 0 и 1. Поэтому минимальной единицей измерения данных является бит. Таким образом, 1 бит — это либо 0, либо 1. Элемент, принимающий всего два значения, называется двухпозиционным и просто реализуется аппаратно: например, двумя состояниями «включено» —«выключено», «ток есть» —«ток отсутствует».
Более подробно о системах счисления будет рассказано позже.
Наряду с битом используется укрупненная единица измерения — байт, равная 8 бит.При кодировании информации по Y разрядам с помощью X символов количество возможных различных комбинаций N определяется по формуле N=X y (этосоотношение определяет число размещений с повторениями). При двоичном кодировании (Х=2) количество возможных различных комбинаций N определяется по формуле N=2 Y .
Напомним таблицы размерностей:
1 бит — самая маленькая единица информации — условно один «О» или одна «1».
1 байт = 8 бит (8 = 2 3 ); в международной системе кодов ASCII (AmtricanStandardCodeforInformationInterchange, Американский стандартный код обмена информацией) каждый символ кодировался одним байтом, чтопозволяло закодировать = 256 символов, чего на первых порах хватало. Сейчас происходит переход к кодировке Unicode, где каждый символ кодируется двумя байтами, что позволяет кодировать 2 16 = 65536 символов, многократно увеличивая возможности кодирования.
1 Кбайт (килобайт) = 1024 байт (2 10 байт). По этому поводу есть анекдот, что физик думает, что в одном килобайте 1000 байт, а программист — что в одном килограмме 1024 грамма.
1 Мбайт (мегабайт) = 1024 Кбайта (2 10 Кбайт или 2 20 байт).
1 Гбайт (гигабайт)=1024 Мбайта (2 10 Мбайт или 2 30 байт).
1 Тбайт (терабайт)=1024 Гбайта (2 10 Гбайт или 2 40 байт).
В недалеком будущем нас ожидают:
1 Пбайт (петабайт) =1024 Тбайта (2 10 Тбайт или 2 50 байт).
1 Эбайт (экзабайт) =1024 Пбайта (2 10 Пбайт или 2 60 байт).
1 Збайт (зеттабайт) =1024 Эбайта (2 10 Эбайт или 2 70 байт).
1 Йбайт (йоттабайт) =1024 Збайта (2 10 Збайт или 2 80 байт)
Пример 2.8.Сообщение в двоичной системе счисления 10010010 имеет объем данных V = 8 бит. Этот объем данных представляется 1 байтом.
Для удобства использования введены и более крупные единицы объема данных:
1 024 байт = 1 килобайт (Кбайт);
1 024 Кбайт = 1 мегабайт (Мбайт) = 1 024 2 байт = 1048 576 байт;
1 024 Мбайт = 1 гигабайт (Гбайт) = 1 024 3 байт;
1 024 Гбайт = 1 терабайт (Тбайт) = 1 024 4 байт;
1 024 Тбайт = 1 пентабайт (Пбайт) = 1 024 5 байт.
Общий объем информации в книгах, цифровых и аналоговых носителях за всю историю человечества составляет по оценкам 10 18 байт. Зато следующие 10 18 байт будут созданы в течение пяти —семи лет.
Отличие объема данных от количества информации заключается в следующем: объем данных выражается только целыми значениями, а количество информации — вещественными.
Формулу Хартли можно использовать для определения объема данных. При этом результат округляется в большую сторону, так как минимальной ячейкой памяти в ЭВМ является байт. Поэтому, заняв только часть байта (его несколько бит), оставшаяся часть байта не используется.
Пример 2.9.В сообщениях используются только первые шесть букв латинского алфавита: А, В,С, D, Е, F.Сколько байт необходимо для хранения сообщения «AABBCCD»?
Решение. Определим, сколько бит необходимо для хранения одной буквы по формуле Хартли:
Результат округлим в большую сторону, следовательно:
Тремя битами можно представить 8 комбинаций: ООО, 001, 010, 011, 100, 101, 110, 111. Для кодирования шести букв используются первые шесть комбинаций, а две последние комбинации не используются.
Для сообщения, состоящего из М = 7 букв, необходимо
Vc = М*Vb = 7 • 3 = 21 бит = 2,625 байт.
Результат вновь округлим в большую сторону:
Информатика и ее структура
Информатика — это наука и вид практической деятельности, связанные с процессами обработки информации с помощью вычислительной техники.
Термин «информатика» произошел от слияния двух французских слов information (информация) и automatique (автоматика) и дословно определял новую науку об «автоматической обработке информации». В англоязычных странах информатика называется computerscience (наука о компьютерной технике).
Информатика представляет собой единство разнообразных отраслей науки, техники и производства, связанных с переработкой информации с помощью вычислительной техники и телекоммуникационных средств связи в различных сферах человеческой деятельности.
Основная задача информатики заключается в определении общих закономерностей процессов обработки информации: создания, передачи, хранения и использования в различных сферах человеческой деятельности. Прикладные задачи связаны с разработкой методов, необходимых для реализации информационных процессов с использованием технических средств.
Информатика включает в себя следующие разделы.
I. Теоретическая информатика.Это часть информатики, включающая в себя ряд подразделов, тесно связанных с другой наукой — математикой. В теории информации и кодирования изучается информация как таковая, ее свойства, способы измерения количества информации. Областью исследования теории алгоритмов и автоматов являются методы переработки информации с помощью вычислительных систем. Теория формальных языков и грамматик рассматривает правила построения простейших языков с небольшим числом синтаксических конструкций, называемых языками программирования. Теория принятия решений и исследования операций связана с использованием информации для принятия решений и оценки их оптимальности. Теоретическая информатика использует математические методы для общего изучения процессов обработки информации.
II. Вычислительная техника.Это раздел, включающий в себя общие принципы построения вычислительных систем. Примером вычислительной системы является персональный компьютер, или ЭВМ. Этот раздел не связан с вопросами физической разработки, реализации и производства элементов вычислительных систем. Здесь рассматривается архитектура вычислительных систем— соглашение о составе, назначении, функциональных возможностях и принципах взаимодействия элементов внутри вычислительных систем и вычислительной системы с другими устройствами. Примерами принципиальных, ставших классическими решений в этой области являются архитектура фон Неймана компьютеров первых поколений, шинная архитектура ЭВМ, архитектура параллельной или многопроцессорной обработки информации.
III. Программирование.Это деятельность, направленная на разработку программного обеспечения вычислительной техники. Программирование делится на разделы, связанные с разработкой соответствующих типов программного обеспечения. Программное обеспечение, непосредственно управляющее составными частями вычислительной техники, называется системным. Системный уровень программного обеспечения составляют операционные системы. Служебное программное обеспечение— это архиваторы, антивирусы, программы управления файлами и папками. Служебное программное обеспечение предназначено для выполнения некоторых вспомогательных функций. Прикладное программное обеспечение— это программы для решения большинства задач пользователя. Прикладное программное обеспечение включает в себя офисные, графические, справочные программы, среды разработки программ и др.
IV. Информационные системы.Это раздел информатики, связанный с решением проблем анализа потоков информации в различных сложных системах, их оптимизации, структурировании, принципах хранения и поиска информации по запросу пользователя. Примерами информационных систем являются информационносправочные, информационно-поисковые, глобальные системы или сети хранения и поиска информации.
V. Искусственный интеллект.Это область информатики, в которой решаются сложнейшие проблемы, находящиеся на пересечении с психологией, физиологией, языкознанием и другими науками. Исторически сложились три основных направления развития систем искусственного интеллекта. Целью работ первого направления является создание алгоритмического и программного обеспечения вычислительных машин, позволяющего решать интеллектуальные задачи не хуже человека. В рамках второго подхода объектом исследований являются структура и механизмы работы мозга человека, а конечная цель заключается в моделировании функционирования.
Источник