Какие способы измерения информации вы знаете

Методы измерения информации

Как и любое физическое вещество информация имеет свои количественные характеристики. В современной информатике приняты следующие методы измерения информации:

Объемный метод измерения характеризуется количеством символов, содержащихся в конкретном сообщении. В вычислительной технике вся информация, независимо от ее природы (текст, число, изображение и т.д.), представляется в двоичной форме записи, т.е. состоящей из различных комбинаций двух символов 0 и 1. Один такой символ в вычислительной технике называется битом, совокупность восьми таких символов называется байтом, а большое количество символов, которыми оперирует ЭВМ, называется словом.

Энтропийный метод измерения информации используется в теории информации и кодирования. Он основывается на мере неопределенности появления некоторой совокупности событий и выражается вероятностью появления этих событий. Количество информации в сообщении при энтропийном методе оценки определяется тем, насколько уменьшается эта мера после получения сообщения. В теории информации используется следующая количественная мера:

где Э – энтропия;

m – число возможных равновероятных событий.

В случае, когда энтропия зависит не только от числа равновероятных событий выбора, но и от вероятности возможного выбора элемента информации К. Шеннон предложил следующую форму оценки энтропии:

где Рi – вероятность возможного выбора i-го элемента информации.

Тогда среднее количество информации при m числе выборке с вероятностью Рi каждой выборки определится выражением:

Алгоритмическая оценка информации характеризуется сложностью (размером) алгоритма (программы), которая позволяет ее произвести. На разных машинах и разных языках программирования такая оценка может быть разной. Поэтому задаются некоторой вычислительной машиной (например, элементарной машиной Тьюринга), а предлагаемая количественная оценка информации определяется сложностью слова, как минимальное число внутренних состояний машины, требуемой для его воспроизведения.

Структурная схема машины Тьюринга приведена на рисунке 2.2.

Рисунок 2.2 – Структурная схема машины Тьюринга

На рисунке 2.2 обозначено:

УУ – управляющее устройство;

СГ – считывающая головка;

Лента – источник информации бесконечная лента.

Управляющее устройство УУ определяет положение считывающей головки СГ <qi>. В каждой ячейке ленты записан символ <ai>. Таким образом, состояние машины <si> определится выражением:

Следующее перемещение ленты задается параметром <pi>. Тогда новое состояние машины определится следующим образом:

Таким образом, полное состояние машины Тьюринга можно задать, определив множества Q, A, P. Алгоритм определения состояния машины Тьюринга является единицей алгоритмического метода оценки информации.

Источник

Способы измерения информации

Для хранения информации используются специальные устройства памяти. Дискретную информацию хранить гораздо проще непрерывной, т.к. она описывается последовательностью чисел. Если представить каждое число в двоичной системе счисления, то дискретная информация предстанет в виде последовательностей нулей и единиц. Присутствие или отсутствие какого-либо признака в некотором устройстве может описывать некоторую цифру в какой-нибудь из этих последовательностей. Например, позиция на дискете описывает место цифры, а полярность намагниченности — ее значение. Для записи дискретной информации можно использовать ряд переключателей, перфокарты, перфоленты, различные виды магнитных и лазерных дисков, электронные триггеры и т.п. Одна позиция для двоичной цифры в описании дискретной информации называется битом (bit, binary digit). Битслужит для измерения информации. Информация размером в один бит содержится в ответе на вопрос, требующий ответа «да» или «нет». Непрерывную информацию тоже измеряют в битах.

Бит — это очень маленькая единица, поэтому часто используется величина в 8 раз большая — байт (byte), состоящая из двух 4-битных полубайт или тетрад. Байт обычно обозначают заглавной буквой B или Б. Как и для прочих стандартных единиц измерения для бита и байта существуют производные от них единицы, образуемые при помощи приставок кило (K), мега (M), гига (G или Г), тера (T), пета (P или П) и других. Но для битов и байтов они означают не степени 10, а степени двойки: кило — , мега — , гига — , тера — , пета — . Например, 1KB = 8Кbit = 1024B = 8192bit, 1МБ = 1024КБ = 1048576Б = 8192Кбит.

Для обработки информации используют вычислительные машины, которые бывают двух видов: ЦВМ (цифровая вычислительная машина) — для обработки дискретной информации, АВМ (аналоговая вычислительная машина) — для обработки непрерывной информации. ЦВМ — универсальны, на них можно решать любые вычислительные задачи с любой точностью, но с ростом точности скорость их работы уменьшается. ЦВМ — это обычные компьютеры.

Читайте также:  Как заработать денег не честным способом

Каждая АВМ предназначена только для узкого класса задач, например, интегрирования или дифференцирования. Если на вход такой АВМ подать сигнал, описываемый функцией , то на ее выходе появится сигнал или . АВМ работают очень быстро, но их точность ограничена и не может быть увеличена без аппаратных переделок. Программа для АВМ – это электрическая схема из заданного набора электронных компонент, которую нужно физически собрать.

Бывают еще и гибридные вычислительные машины, сочетающие в себе элементы как ЦВМ, так и АВМ.

На рис.1.5 изображена схема передачи информации.

Кодированием, например, является шифровка сообщения, декодированием — его дешифровка.

Процедуры кодирования и декодирования могут повторяться много раз. Ошибки при передаче информации происходят из-за шума в канале (атмосферные и технические помехи), а также при кодировании и декодировании. Теория информации изучает, в частности, способы минимизации количества таких ошибок.

Скорость передачи информации измеряется в количестве переданных за одну секунду бит или в бодах (baud): 1бод = 1бит/сек (bps). Производные единицы для бода такие же как и для бита и байта, например, 10Kbaud = 10240baud.

Информацию можно передавать последовательно, т.е. бит за битом, и параллельно, т.е. группами фиксированного количества бит. Параллельный способ быстрее, но он часто технически сложнее и дороже особенно при передаче данных на большие расстояния. Параллельный способ передачи используют, как правило, только на расстоянии не более 5 метров.

Содержательный подход к измерению информации. Сообщение – информативный поток, который в процессе передачи информации поступает к приемнику. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными Сообщение должно быть информативно. Если сообщение не информативно, то количество информации с точки зрения человека = 0. (Пример: вузовский учебник по высшей математике содержит знания, но они не доступны 1-класснику)

Алфавитный подход к измерению информации не связывает количество информации с содержанием сообщения. Алфавитный подход — объективный подход к измерению информации. Он удобен при использовании технических средств работы с информацией, т.к. не зависит от содержания сообщения. Кол-во информации зависит от объема текста и мощности алфавита. Ограничений на max мощность алфавита нет, но есть достаточный алфавит мощностью 256 символов. Этот алфавит используется для представления текстов в компьютере. Поскольку 256=28, то 1символ несет в тексте 8 бит информации.

Вероятностный подход к измерению информации. Все события происходят с различной вероятностью, но зависимость между вероятностью событий и количеством информации, полученной при совершении того или иного события можно выразить формулой которую в 1948 году предложил Шеннон.

Качество информации является одним из важнейших параметров для потребителя информации. Оно определяется следующими характеристиками:

— репрезентативность – правильность отбора информации в целях адекватного отражения источника информации. Например, в целях большей репрезентативности данных о себе абитуриенты стремятся представить в приемную комиссию как можно больше свидетельств, дипломов, удостоверений и другой информации, подтверждающей их высокий уровень подготовки, что учитывается при зачислении в ВУЗ;

— содержательность – семантическая емкость информации. Рассчитывается как отношение количества семантической информации к ее количеству в геометрической мере. Это характеристика сигнала, про который говорят, что «мыслям в нем тесно, а словам просторно». В целях увеличения содержательности сигнала, например, используют для характеристики успеваемости абитуриента не полный перечень его аттестационных оценок, а средний балл по аттестату;

— достаточность (полнота) – минимальный, но достаточный состав данных для достижения целей, которые преследует потребитель информации. Эта характеристика похожа на репрезентативность, однако разница состоит в том, что в данном случае учитывается минимальный состав информации, который не мешает принятию решения. Например, абитуриент – золотой медалист может не представлять в приемную комиссию свой аттестат: диплом, подтверждающий получение золотой медали, свидетельствует о полном наборе отличных оценок в аттестате;

Читайте также:  Способы выравнивания старого деревянного пола

— доступность – простота (или возможность) выполнения процедур получения и преобразования информации. Эта характеристика применима не ко всей информации, а лишь к той, которая не является закрытой. Для обеспечения доступности бумажных документов используются различные средства оргтехники для их хранения, а для облегчения их обработки используются средства вычислительной техники;

— актуальность – зависит от динамики изменения характеристик информации и определяется сохранением ценности информации для пользователя в момент ее использования. Очевидно, что касается информации, которая используется при зачислении, она актуальна, так как само обучение уже закончилось, и его результаты изменены быть не могут, а, значит, остаются актуальными;

— своевременность – поступление не позже заранее назначенного срока. Этот параметр также очевиден недавним абитуриентам: опоздание с представлением позитивной информации о себе при поступлении может быть чревато незачислением;

— точность – степень близости информации к реальному состоянию источника информации. Например, неточной информацией является медицинская справка, в которой отсутствуют данные о перенесенных абитуриентом заболеваниях;

— достоверность – свойство информации отражать источник информации с необходимой точностью. Эта характеристика вторична относительно точности. В предыдущем примере получаемая информация недостоверна;

— устойчивость – способность информации реагировать на изменения исходных данных без нарушения необходимой точности.

Контрольные вопросы:

1. Что такое кибернетика и что она изучает?

2. Кто являются родоначальниками кибернетики?

3. Что понимается под информацией в кибернетике?

4. С какими разделами математики тесно связана теория информации?

5. Что представляет собой теория информации как наука?

6. Какие виды информации вы знаете?

7. Чем характеризуется дискретная информация? Приведите примеры дискретной информации.

8. Что определяет частота дискретизации?

9. Сформулируйте теорему о выборках.

10. Приведите пример использования теоремы о выборках.

11. С помощью каких устройств компьютера происходит хранение, обработка и передача данных?

12. Какие способы хранения информации применяются в информатике?

13. Какие подходы к измерению информации существуют?

14. Определите содержательный подход к измерению информации.

15. Какой подход измерения информации называется алфавитным?

16. Дайте определение вероятностному подходу.

17. Какими характеристиками определяется информация?

Источник

Конспект по информатике на тему «Способы измерения информации»

Способы измерения информации: вероятностный и объемный подходы.

Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной .кости, имеющей N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2. N.

Введем в рассмотрение численную величину, измеряющую неопределенность —энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:

а сама функция f является возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для N = 1, 2. 6.

Рассмотрим процедуру бросания кости более подробно:

1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределенность; обозначим ее H 1;

2) кость брошена; информация об исходе данного опыта получена; обозначим количество этой информации через I;

3) обозначим неопределенность данного опыта после его осуществления через H 2. За количество информации, которое получено в ходе осуществления опыта, примем разность неопределенностей «до» и «после» опыта:

Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята (Н2 = 0), и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение Н2 могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим «З».

Читайте также:  Лучший способ изучения английского языка самому

Следующим важным моментом является определение вида функции f в формуле (1.1). Если варьировать число граней N и число бросаний кости (обозначим эту величину через М), общее число исходов (векторов длины М, состоящих из знаков 1,2. N ) будет равно N в степени М:

Так, в случае двух бросаний кости с шестью гранями имеем: Х = 6 2 = 36. Фактически каждый исход Х есть некоторая пара (X1, X2), где X1 и X2 — соответственно исходы первого и второго бросаний (общее число таких пар — X).

Ситуацию с бросанием М раз кости можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем — «однократных бросаний кости». Энтропия такой системы в М раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»):

Данную формулу можно распространить и на случай любого N:

Прологарифмируем левую и правую части формулы (1.3): ln X = M ln N , М = ln X /1 n M . Подставляем полученное для M значение в формулу (1.4):

О
бозначив через К положительную константу , получим: f(X) = К ∙ lп Х, или, с учетом (1.1), H = K ln N . Обычно принимают К = 1 / ln 2. Таким образом

Это — формула Хартли.

Важным при введение какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».

В
се N исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: ( log 2 N )1 N . При этом вероятность i-го исхода Р i равняется, очевидно, 1/ N .

Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. Рi могут быть различны). Формула (1.6) называется формулой Шеннона.

В двоичной системе счисления знаки 0 и 1 будем называть битами (от английского выражения Binary digiTs — двоичные цифры). Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, байт информации.

Килобайт = 2 10 =1024 байт

Мегабайт = 2 20 =1024 Кб = 1 048 576 байт

Гигабайт = 2 30 =1024 Мб = 1 073 741 824 байт

Терабайт = 2 40 =1024 Гб = 1 099 511 627 776 байт

Петабайт = 2 50 =1024 Тб = 1 125 899 906 842 624 байт

Экзабайт = 2 60 = 1024 Пб = 1 152 921 504 606 846 976 байт

Зеттабайт = 2 70 = 1024 Эб = 1 180 591 620 717 411 303 424 байт

Йоттабайт = 2 80 = 1024 Зб = 1 208 925 819 614 629 174 706 176 байт

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.

В дальнейшем, практически всегда количество информации понимается в объемном смысле.

Источник

Оцените статью
Разные способы