Субъективный объективный способ измерения информации

Содержание

Объективный (алфавитный) подход к измерению информации
Субъективный объективный способ измерения информации
Другие статьи из рубрики «Информатика»
Готовлю школьников и студентов по информатике и программированию на все 100!
Понятие информации
Субъективный способ измерения информации
Объективный способ измерения информации
Остались вопросы, недопонимание? Звоните мне и записывайтесь на первый пробный урок
Измерение информации
Измерение информации

Объективный (алфавитный) подход к измерению информации

Теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и называется объективныйили алфавитный подход.

При объективном подходе к измерению информации мы отказываемся от содержания информации, от человеческой важности для кого-то.

Информация рассматривается как последовательность символов, знаков (определение3).

Количество символов в сообщении называется длиной сообщения.

Основой любого языка является алфавит.

Алфавит – это набор знаков (символов), в котором определен их порядок.

Полное число символов алфавита принято называть мощностью алфавита. Обозначим эту величину буквой M.

Например, мощность алфавита из русских букв равна 33:

мощность алфавита из английских букв равна 26.

При алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (т.е. от числа знаков в тексте) и от мощности алфавита. Тогда информацию можно обрабатывать, передавать, хранить.

Каждый символ несет x бит информации. Количество информации x, которое несет один символ в тексте, зависит от мощности алфавита M, которые связаны формулой 2x = M. Следовательно x = log2M бит.

Количество информации в тексте, состоящем из K символов, равно K*x или

K* log2M, где x – информационный вес одного символа алфавита.

Удобнее измерять информацию, когда мощность алфавита M равна целой степени числа 2. Для вычислительной системы, работающей с двоичными числами, также более удобно представление чисел в виде степени двойки.

Пример_6, в 2-символьном алфавите каждый символ несет 1 бит информации (2x = 2, откуда x = 1 бит).

Если M=16, то каждый символ несет 4 бита информации, т.к. 24 = 16.

Если M=32, то один символ несет 5 бит информации.

При M=64, один символ «весит» 6 бит и т.д.

Пример_7: Племя “Обезьяны” пишет письма, пользуясь 32-символьным алфавитом. Племя “Слоны” пользуется 64-символьным алфавитом. Вожди племен обменялись письмами. Письмо племени “Обезьяны” содержало 90 символов, а письмо племени “Слоны” – 80 символов. Сравните объем информации, содержащейся в письмах.

Решение: Мощность алфавита племени “Обезьяны” равна 32, информационный вес одного символа алфавита log232 = 5 бит. Количество информации в тексте, состоящем из 90 символов, равно 90*log232 = 450 бит.

Рассуждая аналогично про племя “Слоны”, получим: 80*log264 = 480 бит.

Следовательно, объем информации в письме вождя племени “Слоны” больше объема информации, которую передал в письме вождь племени “Обезьяны”.

Есть алфавит, который можно назвать достаточным. Это алфавит мощностью 256 символов. Алфавит из 256 символов используется для представления текстов в компьютере. В этом алфавите можно поместить практически все необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, скобки, знаки препинания, знаки псевдографики. Поскольку 256=28, то один символ этого алфавита «весит» 8 бит.

8 бит информации присвоили свое название – байт.

Байт – поле из 8 последовательных бит. Байт широко используется как единица измерения количества информации.

Компьютерные текстовые редакторы работают с алфавитом мощности 256 символов. Поскольку в настоящее время при подготовке книг используются текстовые редакторы, легко посчитать объем информации в тексте.

Если один символ алфавита несет 1 байт информации, то надо просто сосчитать число символов, полученное значение даст информационный объем текста в байтах.

В любой системе единиц измерения существуют основные единицы и производные от них.

Для измерения больших объемов информации используются производные от байта единицы:

1 килобайт = 1 Кб = 210 байт = 1024 байта

1 мегабайт = 1 Мб = 210 Кб = 1024 Кб = 1048576 байт

1 гигабайт = 1 Гб = 210 Мб = 1024 Мб = 1048576 Кб = 1073741824 байт

Пример_8: Книга, набранная с использованием текстового редактора, содержит 70 страниц, на каждой странице 38 строк, в каждой строке 56 символов. Определить объем информации, содержащейся в книге.

Решение: Мощность компьютерного алфавита равна 256 символов. Один символ несет 1 байт информации. Значит 1 страница содержит 38*56=2128 байт информации. Объем всей информации в книге 2128*70=148960 байт.

Если оценить объем книги в килобайтах и мегабайтах, то

148960/1024 = 145,46875 Кбайт.

145,46875/1024 = 0,142059 Мбайт.

Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода. Только алфавитный подход пригоден при использовании технических средств работы с информацией.

Источник

Субъективный объективный способ измерения информации

Другие статьи из рубрики «Информатика»

Содержание:

Готовлю школьников и студентов по информатике и программированию на все 100!

Здравствуйте! Меня зовут Александр Георгиевич. Уже на протяжении 10 лет я помогаю школьникам успешно подготовиться к успешной сдаче ГИА и ЕГЭ по информатике, а студентам сдать дисциплину, связанную с программированием на отличную оценку. В данной публикации я хочу рассказать о том, как происходит выбор оптимального способа измерения информации.

Вопросы об измерении информации не являются простыми. Ответ зависит исключительно от того, что именно подразумевать под понятием информации. В современной науке существует множество определений данного термина зависимо от сферы употребления. Рассмотрим основные три.

Понятие информации

В повседневной жизни информация интерпретируется как сведения об окружающем пространстве и процессах, которые там протекают. Информация воспринимается человеком либо специализированными устройствами.

В технической сфере под информацией подразумевается сообщения, которые передаются в качестве сигналов и знаков.

Согласно теории информации, под информацией подразумевают не любые сведения об окружающей среде и происходящим там процессам. Учитываются только те, которые полностью или частично снимают неопределенность знаний о чем-либо.

Выбор способа измерения информации зависит исключительно от определения информации. Существует два подхода измерения информации, применяемые в разных сферах. Рассмотрим каждый из них.

Субъективный способ измерения информации

Данный подход предусматривает интерпретацию информации в качестве знаний, которые может получить человек. Следовательно, сообщение можно считать информативным, если оно способно пополнить знания человека в какой-либо отрасли.

Разные люди при получении одинакового сообщения могут по-разному оценивать его информативность. Связано это с тем, что знания людей в определенной отрасли до получения сообщения были разными. Сообщение можно считать информативным, если в нем содержаться новые для человека данные. Соответственно, неинформативное сообщение – это то, в котором содержаться известные либо устаревшие сведенья. С этого можно сделать вывод, что количество информации зависит от того, насколько ново и полезно для человека сообщение.

Основа субъективного подхода – уменьшение неопределенности (незнаний) в какой-либо сфере после получения того или иного сообщения. Данный принцип измерения информации предусматривает определение количества информации в битах. Бит – элементарная единица измерения информации, которая уменьшает неопределенность знаний о чем бы то ни было в 2 раза.

Пример: тетрадь лежит в одной из двух тумбочек, правой или левой. Сообщение о том, что тетрадь лежит в правой тумбочке, уменьшает неопределенность знаний в два раза. Такое сообщение содержит один бит информации.

Объективный способ измерения информации

Данный способ предусматривает связь количества информации с содержанием того или иного сообщения. Объективный способ измерения информации игнорирует информативность сообщения, его важность для конкретного человека. Информация в данном подходе рассматривается как последовательность определенных символов. Количество символов принято именовать длинной сообщения.

Объективный подход измерения информации определяет количество информации независимо от информативности сообщения. Объем информации зависит исключительно от количества символов, которые содержаться в том или ином сообщении. В таком случае, информация может обрабатываться, передаваться и храниться.

Пример: в текстовом документе содержится 90 страниц, на каждой странице 40 строк, в каждой строке 50 символов. Компьютерный алфавит содержит 256 символов, соответственно один символ содержит 1 байт информации. Общий объем информации в текстовом документе: 90 • 40 • 50 = 180 000 байт, то есть 175.78 килобайт информации. Данный пример показал, каким образом происходит кодирование текстовой информации.

Стоит отметить, что только объективный метод измерения информации пригоден при реализации технических средств по обработке данных. Субъективный способ для этих целей не пригоден.

Остались вопросы, недопонимание? Звоните мне и записывайтесь на первый пробный урок

Если у вас остались какие-либо вопросы, связанные с выбором оптимального способа измерения информации, то записывайтесь ко мне на индивидуальные уроки по информатике. На своих индивидуальных занятиях я делаю акцент на практические решения. Мы с вами рассмотрим множество задач, в которых потребуется вычислять объем информации, и вы на практике «прочувствуете» все способы измерения информации.

Источник

Измерение информации

Вопрос «как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку определять информацию можно по-разному, то и способы измерения могут быть разными. Существует три подхода к измерению количества информации. При этом разные подходы к измерению информации применяются в быту, технике и в теории информации.

Измерение информации в быту

Предположим, что Вы получили какое-то сообщение. ( например прочитали статью в любимом журнале). В этом сообщение содержится какое-то количество информации. Как оценить какое количество информаци вы получили? Другими словами, как измерить информацию?

Можно ли сказать , что чем больше статья, тем больше информации она содержит? Разные люди, получившие одно и то же сообщение по разному оценивают количество информации, содержащееся в нем. Это происходит оттого, что знания людей об этих событиях , явлениях до получения сообщения были различны. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, чем написано в статье, скажут, что не получили информации вообще. Таким образом можно сказать , что количество информации зависит от того насколько новой является эта информация для получателя .

При таком подходе непонятно, по каким критериям можно ввести единицу измерения информации. Следовательно, с точки зрения информации как новизны мы не можем оценить количество информации, содержащейся в научном открытии, новой теории общественого развития.

Измерение информации в технике

В технике информацией считается любая хранящаяся , обрабатываемая или передаваемая последовательность символов. Часто используют простой и грубый способ определения количества информации, который может быть назван обьемным. Он основан на подсчете количества символов в сообщении, т. е. связан с его длиной и не учитывает содержания.

Длина сообщения зависит от числа различных символов, употребляемых для записи сообщения. В вычислительной технике применяются две стандартные единицы измерения: бит ( двоичный знак двоичного алфавита <0,1>) — минимальная единица измерения информации и байт — (равен восьми битам, представляет собой один символ, т.е. при вводе с клавиатуры этого символа машине передается 1 байт информации).

Измерение информации в теории информации (информация, как снятая неопределенность).

Пылкий влюбленный, находясь в разлуке, с обьектом своей любви, посылает телеграмму; “Любишь?”. В ответ приходит не менее лаконичная телеграмма: “Да!”. Сколько информации несет ответная телеграмма? Альтернатив здесь две- либо “Да”, либо “нет”.Их можно обозначить знаками двоичного кода — 1 и 0. Таким образом, ответную телеграмму можно было бы закодировать всего одним двоичным символом. содержащееся Можно ли сказать, что ответная телеграмма несет одну единицу информации? Получение информации ( ее увеличение ) одновременно означает увеличение знания или уменьшение информационной неопределенности.

Книга лежит на одной из двух полок — верхней или нижней. Сообщение о том, что книга лежит на верхней полке уменьшает неопределенность в два раза.

В простейшем случае выбор одного из двух сообщений («да» или «нет», 0 или 1) принимают за единицу информации. Она названа «бит» или двоичная цифра. Вопрос ценности этой информации для получателя — это уже из иной области.

Сообщение о том, как упала монета- «орлом» или «решкой» несет один бит информации.

Известно, что Иванов живет на улице Весенней. Сообщение о том, что номер его дома четный, уменьшило неопределенность вдвое, мы стали знать больше, но информационная неопределенность осталась. Почему в этом случае мы не можем сказать, что информационная неопределенность уменьшилась вдвое? Если вы затрудняетесь ответить на этот вопрос, представьте себе улицу, на четной стороне которой, например, четыре дома, а на нечетной — двадцать. Такие улицы не такая уж большая редкость.

Очень приближенно можно сказать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать, чтобы получить ту же информацию, ответ на эти вопросы может быть лишь «да» или «нет».

В теории информации количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания и характеризующую неопределенность, которая исчезает после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.

Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество вероятности в сообщении о нем равно 0. Чем невероятнее событие, тем большую информацию о нем несет сообщение. Лишь при равновероятных ответах ответ «да» или «нет» несет 1 бит информации.

Оценка информации, так же как вещества или энергии, может быть субъективной и объективной. В первом случае главное — смысл информации, а во втором — её измеримость.

Смысл информации для машины, обрабатывающей её — это абсурд. Субъективная оценка информации не является универсальной.

При объективной оценке информации следует отрешиться от содержания её человеческой «важности» для кого бы то ни было. Измеримость информации достигается использованием искусственных органов чувств — устройств, приборов, датчиков и т. д. Они не только расширяют пределы слышимого и видимого, но и могут обрабатывать сигналы, не доступные органам чувств человека.

Информацию измеряют так же, как измеряют вещество и энергию, приняв некоторую единицу измерения за эталон. Что же принять за эталон? Компьютерная техника, как известно, работает, “питаясь” электрическим током – явлением с двумя состояниями. Если обозначить эти состояния (ведь смысл самого явления не важен!), получится алфавит из двух символов или двоичный алфавит.

Количество информации, которое содержит символ двоичного алфавита, принято за единицу измерения информации.

Так как речь идет о единицах и количестве, то в качестве символов используются цифры. Исторически случилось так, что этими цифрами стали 0 и 1.

Единица измерения количества информации называется БИТ (от англ. bit, сокращенно от binary digit – двоичная цифра).

Бит — самое короткое слово двоичного алфавита и самая маленькая единица измерения информации, причем символы 0 и 1 равноправны. Для удобства введена более крупная единица измерения количества информации, принятая Международной системой СИ за основную, — БАЙТ (англ. byte).

1 байт (b) = 8 бит

Производные единицы измерения информации:

1 килобайт, Kb (K) = 1024 b (210 b)

1 мегабайт, Mb (M) = 1024 Kb (210 Kb) = 220 b

1 гигабайт, Gb (G) = 1024 Mb (210 Мb) = 230 b

Первый способ измерения информации отражает вероятностный (содержательный) подход. Этот метод называется субъективным

Информация — сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Точнее раскрыть суть определения помогает понять то, какие задачи помогает решить информация (а не то, что собой она представляет).

Информация устраняет неопределенность, предоставляет человеку сделать выбор в пользу какого-либо варианта исхода некоторого события. Таким образом, информация начинает играть роль в том случае, если, во-первых, имеется некоторый выбор вариантов и, во-вторых, если эти варианты требуется определенным способом оценить. Информация предоставляет человеку возможность дать такую оценку.

Рассмотрим равновероятностные варианты.

Подойдя к развилке дорог, человек, направляющийся в определенное место, неожиданно встает перед выбором, на какую же из них свернуть. Он выбирает ту дорогу, которая ведет к цели. Если он знает, по какой из дорог он доберется до места, то информация ему не нужна. С самого начала он способен оценить оба варианта. Если же вся обстановка совершенно незнакома и у него нет никаких исходных данных, то ему нужна информация. Объем информации, требующейся при полном отсутствии предварительных данных для выбора одного из двух равноценных и совершенно независимых вариантов, принято считать единицей информации и обозначать, как бит.

1 бит — количество информации, позволяющее выбрать один вариант из двух равноценных, независимых вариантов.

Чтобы иметь возможность сделать правильный выбор между четырьмя различными дорогами, требуется два бита информации. Поясним это на таком примере. Сначала две дороги делят на две группы по две дороги в каждой. Далее выбираем группу как один из двух равноценных вариантов, т. е. нам требуется один бит информации, После того, как будет выбрана группа, в ней опять делается выбор между двумя дорогами и нам требуется еще один бит. В сумме получаем два бита информации для выбора одного из четырех вариантов.

Если бы нам потребовалось сделать выбор из восьми вариантов, то нужно было бы три бита информации: один бит идет на выбор между двумя группами из четырех дорог, второй — в группе из четырех выбираем подгруппу, состоящую из двух дорог, третий бит — выбираем из двух дорог ту, по которой пойдем.

Для выбора одного варианта из 16 требуется четыре бита информации и т.д. Здесь уже прослеживается определенная закономерность: при n битах информации нужный вариант выбирается из 2n возможных.

И наоборот, указав один нужный вариант из 2n возможных и одинаково принимаемых в расчет, мы дадим информацию в n битов.

Количество информации n, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения: 2^n = N = > i = log2N (формула Хартли ).

Если события имеют разные вероятности, то применяется формула Шеннона, имеющая вид i= — Σ Pi log2 Pi = -(P1 log2 P1+ P2 log2 P 2 + . + Pn log2 Pn), где i – количество информации, N – количество возможных событий, Pi – вероятность этих событий.

Тем самым мы получаем точное правило для определения объема информации, содержащейся в сведениях и сообщениях.

Алфавитный подход к измерению информации позволяет определить количество информации, заключенной в тексте. Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст.

Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите называется мощностью (размером) алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и дополнительных символов равна 54.

Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. (В действительности это не совсем так, но для упрощения примем такое предположение.)

Вот сколько информации несет один символ в русском тексте! А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на i.

Возьмем с книжной полки какую-нибудь книгу и посчитаем количество информации на одной ее странице. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50*60 = 3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.

Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте) и от мощности алфавита.

Отсюда следует, например, что нельзя сравнивать информационные объемы текстов, написанных на разных языках, только по объему. У них отличаются информационные веса одного символа, так как мощности алфавитов разных языков — различные.

В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет i бит информации; число i можно определить из уравнения:

2*i = N. Для N = 54, используя таблицу, получаем: i = 5,755 бит.

Но если книги написаны на одном языке, то понятно, что в толстой книге информации больше, чем в тонкой. При этом содержательная сторона книги в расчет не берется.

Сформулируем правило, как измерить информацию, используя для этого алфавитный подход.

Количество информации, содержащееся в символьном сообщении, равно К*i, где К— число символов в тексте сообщения, a i -информационный вес символа, который находится из уравнения 2^i = N , где N — мощность используемого алфавита.

Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите называется мощностью (размером) алфавита. Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле: i = log2N.

Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода.

Прагматический подход к измерению информации позволяет определить количество новой информации по отношению ко всей. Прагматический подход — оценивается полезность сообщения

Однако, при таком подходе непонятно, по каким критериям можно ввести единицу измерения информации. Следовательно, с точки зрения информации как новизны мы не можем оценить количество информации, содержащейся в научном открытии, новой теории общественного развития.

Прагматический подход — оценивается полезность сообщения. I=log 2 (P1/P0), где P — вероятность решения задачи P0 до сообщения и P1 после сообщения.

Внешняя память компьютера используется для длительного хранения информации.

Устройства внешней памяти: магнитные диски и ленты, оптические (лазерные) диски, магнитооптические диски.

Дисководы — устройства чтения/записи информации на диски. Различают гибкие магнитные диски — дискеты и жесткие магнитные диски. Жесткие магнитные диски встроены в дисковод и в отличие от дискет являются несъемными.

Структура магнитного диска: одна или несколько сторон (магнитных поверхностей), разделенных на концентрические дорожки, каждая из которых, в свою очередь, поделена на сектора, состоящие из «клеточек» — байтов. Все секторы на одном диске имеют фиксированный размер. Вся работа по считыванию и записи данных на дисках производится только полными секторами. Полный объем памяти диска определяется формулой: ОБЪЕМ = СТОРОНЫ*ДОРОЖКИ*СЕКТОРА*БАЙТЫ, где СТОРОНЫ — количество сторон диска, ДОРОЖКИ — количество дорожек на стороне, СЕКТОРА — количество секторов на дорожке, БАЙТЫ — количество байт в секторе.

Информация на устройствах внешней памяти имеет файловую организацию. Файл — поименованная совокупность данных, хранящихся на внешнем носителе.

Файловая структура диска — это совокупность файлов на диске и взаимосвязей между ними.

Логический диск — это физический (реальный) диск или часть физического диска, которому присвоено собственное имя. Имена логических дисков задаются первыми буквами латинского алфавита с двоеточием: А:, В:, С: и т.д. Обычно с одним гибким магнитным диском связан один логический диск (А:, В), а жесткий диск делится на несколько логических (С:, D: и т.д.)

Каталог — это поименованная совокупность файлов и подкаталогов (т.е. вложенных каталогов). Каталог самого верхнего уровня иерархии называется корневым. Он не вложен ни в какие другие каталоги.

Путь к файлу — это последовательность, состоящая из имен каталогов (разделенных символом «\»), начиная от корневого и заканчивая тем, в котором непосредственно хранится файл.

Полное имя файла состоит из имени логического диска, пути к файлу и имени файла. В одном каталоге не может быть нескольких файлов и каталогов с одинаковыми именами. В разных каталогах это допустимо.

мир», во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод: В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

«количество информации», основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте. Эти подходы используют математические понятия вероятности и логарифма.

рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

формула Шеннона превращается в формулу Хартли.

существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

Источник