Три способа оценки количества информации

Подходы к оценке количества информации

Содержание:

Предмет: Информатика
Тип работы: Реферат
Язык: Русский
Дата добавления: 13.04.2019
  • Данный тип работы не является научным трудом, не является готовой работой!
  • Данный тип работы представляет собой готовый результат обработки, структурирования и форматирования собранной информации, предназначенной для использования в качестве источника материала для самостоятельной подготовки учебной работы.

Если вам тяжело разобраться в данной теме напишите мне в whatsapp разберём вашу тему, согласуем сроки и я вам помогу!

По этой ссылке вы сможете найти рефераты по информатике на любые темы и посмотреть как они написаны:

Посмотрите похожие темы возможно они вам могут быть полезны:

Введение:

Как измерить информацию? Часто мы говорим, что, прочитав статью в журнале или просмотрев новости, не получили никакой информации, или наоборот, краткое сообщение может оказаться для нас информативным. В то же время для другого человека та же самая статья может оказаться чрезвычайно информативной, а сообщение — нет.

Информативными сообщения являются тогда, когда они новы, понятны, своевременны, полезны. Но то, что для одного понятно, для другого — нет. То, что для одного полезно, ново, для другого — нет. В этом проблема определения и измерения информации.

При всем многообразии подходов к определению понятия информации, с позиции измерения информации нас будут интересовать два из них: определение К. Шеннона, применяемое в математической теории информации (содержательный подход), и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров (алфавитный подход).

Вероятностный подход к измерению информации

Любая информация может рассматриваться как уменьшение неопределенности наших знаний об окружающем нас мире (в теории информации принято говорить об уменьшении неопределенности, а не об увеличении объема знаний). Математически это утверждение эквивалентно простой формуле:

где I — количество информации, а H1 и H2 — начальная и конечная неопределенности соответственно. Значение H, которое описывает степень неопределенности, называется энтропией в литературе.

Важным частным случаем является ситуация, когда определенное событие с несколькими возможными исходами уже произошло, что означает, что неопределенность его результата исчезла. Тогда H2 = 0 и формула для информации упрощается: Я = ч.

Расчет энтропии в вероятностном подходе основан на рассмотрении данных о результате некоторого случайного события, то есть события, которое может иметь несколько результатов. Случайность события заключается в том, что реализация результата имеет определенную степень неопределенности.

Предположим, например, что совершенно незнакомый нам студент сдает экзамен, результатом которого могут быть 2, 3, 4 или 5 классы. Поскольку мы ничего не знаем об этом студенте, степень неопределенности всех перечисленные результаты экзамена точно такие же. Напротив, если мы знаем, как он учится, то уверенность в некоторых результатах будет больше, чем в других: например, превосходный ученик, скорее всего, сдаст экзамен на пятерку лучших, а получить двойку для него почти невероятно.

Проще всего определить объем информации в том случае, когда все результаты события могут быть реализованы с равной вероятностью. В этом случае формула Хартли используется для расчета информации. В более сложной ситуации, когда исход события ожидается с различной степенью достоверности, требуются более сложные вычисления с использованием формулы Шеннона. Очевидно, формула Хартли является частным случаем более общей формулы Шеннона.

Формула Хартли была предложена в 1928 году американским инженером Р.Хартли. Она связывает количество равновероятных состояний N с количеством информации I в сообщении о том, что любое из этих состояний реализовалось. Наиболее простая форма для данной формулы записывается следующим образом:

Причем обычно значение N известно, а I приходится подбирать, что не совсем удобно. Поэтому те, кто знает математику получше, предпочитают преобразовать данную формулу так, чтобы сразу выразить искомую величину I в явном виде:

Читайте также:  Evitest one способ применения

Важный частный случай получается из приведенной формулы при N = 2, когда результатом вычисления является единичное значение. Единица информации носит название бит (от англ. BInary digiT — двоичная цифра); таким образом, 1 бит — это информация о результате опыта с двумя равновероятными исходами. Чем больше возможных исходов, тем больше информации в сообщении о реализации одного из них.

Пример 1. Из колоды выбрали 16 карт, все «картинки» и тузы, и положили на стол рисунком вниз. Верхнюю карту перевернули. Сколько информации будет заключено в сообщении о том, какая именно карта оказалась сверху?

Все карты одинаковы, поэтому любая из них могла быть перевернута с одинаковой вероятностью. В таких условиях применима формула Хартли.

Событие, заключающееся в открытии верхней карты, для нашего случая могло иметь 16 возможных исходов. Следовательно, информация о реализации одного из них равняется:

Пример 2. Решите предыдущую задачу для случая, когда сообщение об исходе случайного события было следующим: «верхняя перевернутая карта оказалась черной дамой».

Отличие данной задачи от предыдущей заключается в том, что в результате сообщения об исходе случайного события не наступает полной определенности: выбранная карта может иметь одну из двух черных мастей.

В этом случае, прежде чем воспользоваться формулой Хартли, необходимо вспомнить, что информация есть уменьшение неопределенности знаний:

До переворота карты неопределенность (энтропия) составляла:

  • H1 = log2 N1
  • после него —
  • H2 = log2 N2
  • (причем для нашей задачи N1 = 16, а N2 = 2).

В итоге информация вычисляется следующим образом:

  • I = H1 – H2 = log2 N1 – log2 N2 = log2 N1/N2 = log2 16/2 = 3 бита

Заметим, что в случае, когда нам называют карту точно неопределенность результата исчезает, N2 = 1, и мы получаем «традиционную» формулу Хартли. И еще одно полезное наблюдение. Полная информация о результате рассматриваемого опыта составляет 4 бита. В данном же случае мы получили 3 бита информации, а оставшийся четвертый описывает сохранившуюся неопределенность выбора между двумя дамами черной масти.

Определим теперь, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений

Легко заметить, что если вероятности pi равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Алфавитный подход

Помимо вероятностного подхода к измерению информации, описанного выше, заключающегося в вычислении неопределенности исхода события, существует и другой. Его часто называют объемным, и он состоит в определении объема информации в каждом из символов отдельного сообщения с последующим подсчетом количества этих символов в сообщении.

Пусть сообщение будет закодировано с использованием определенного набора символов. Обратите внимание, что если последовательность символов для данного набора установлена, то она называется алфавитом. Самая сложная часть работы по измерению объема информации — это определение количества информации, содержащейся в каждом отдельном символе: остальная часть процедуры очень проста. Вероятностные методы также могут быть использованы для определения информации в одном символе алфавита, поскольку появление определенного символа в определенном месте в тексте является случайным явлением.

Читайте также:  Способ составления таблицы простых чисел основан

Самый простой способ подсчета заключается в следующем. Пусть алфавит, в котором записаны все сообщения, состоит из М символов. Для простоты предположим, что все они появляются в тексте с одинаковой вероятностью, конечно, это грубая модель3, но очень простая. Затем в рассматриваемом параметре формула Хартли применима для расчета информации об одном из результатов события появлении любого символа алфавита:

Поскольку все символы «равны», естественно, что количество информации в каждом из них одинаково. Поэтому осталось умножить полученное значение I на количество символов в сообщении, и мы получим общее количество информации в нем. Мы напоминаем читателям, что значимость сообщения в описанной процедуре нигде не требуется, наоборот, именно в отсутствие смысла предположение о том, что все символы выглядят одинаково, наиболее вероятно выполняется.

Можно показать, что при любом варианте кодирования:

чем экономичнее способ кодирования, тем меньше разница между этими величинами — см. пример 4, приведенный ниже.

Пример 3. Определить информацию, которую несет в себе 1-й символ в кодировках ASCII и Unicode.

В алфавите ASCII предусмотрено 256 различных символов, т.е. M = 256, а

I = log2 256 = 8 бит = 1 байт

В современной кодировке Unicode заложено гораздо большее количество символов. В ней определено 256 алфавитных страниц по 256 символов в каждой. Предполагая для простоты, что все символы используются, получим, что:

I = log2 (256 * 256) = 8 + 8 = 16 бит = 2 байта

Пример 4. Текст, хранящийся в коде ASCII, состоит исключительно из арифметических примеров, которые написаны с использованием 10 цифр от 0 до 9, 4 знаков арифметических операций, знака равенства и некоторого служебного кода, который отделяет примеры друг от друга. Сравните количество информации, которую несет один символ такого текста, используя вероятностный и алфавитный подходы.

Нетрудно подсчитать, что общий текст, рассматриваемый в задании, состоит из N = 16 различных символов. Следовательно, согласно формуле Хартли:

  • Вероятность = log2 16 = 4 бита
  • В то же время, согласно расчетам примера 3, для символа ASCII
  • Алфавитный = 8 бит

Двойное превышение кодировки символов связано с тем, что не все коды ASCII востребованы в нашем тексте. В то же время нетрудно построить вариант специализированного 4-битного кодирования для конкретной задачи 4, для которого I-вероятностный и I-алфавитный алгоритмы оказываются равными.

Первичные единицы

Мы сравниваем вероятностный и алфавитный подходы. Первый подход позволяет нам рассчитать предельное, минимально возможное теоретическое значение объема информации, которая несет сообщение об этом исходе события. Во-вторых, сколько информации на практике, с учетом конкретной выбранной кодировки. Очевидно, что первая величина является однозначной характеристикой рассматриваемого события, а вторая также зависит от метода кодирования: в «идеальном» случае обе величины совпадают, однако на практике используемый метод кодирования может иметь некоторую степень избыточность.

С рассматриваемой точки зрения вероятностный подход имеет преимущество. Но, с другой стороны, алфавитный метод заметно проще и с некоторых позиций (например, для вычисления необходимого объема памяти) более полезен.

Бит, будучи наименьшей возможной частью информации в компьютере, является довольно маленькой единицей. Поэтому на практике чаще всего используется другая единица, которая называется 1 байт =8 бит.

Единицы, производные от бита

С точки зрения компьютерного устройства, байт примечателен тем, что это минимальная адресуемая информация в компьютере, иными словами, невозможно прочитать часть байта из памяти. В современных компьютерах все устройства памяти имеют байтовую структуру, и внешние устройства также обмениваются информационными байтами или кратными ей. В результате все типы данных (числа, символы и т. д.) представлены в компьютере кратными байту.

Запись. Даже логические переменные, для каждой из которых, казалось бы, достаточно 1 бита, обычно занимают полный байт в ОЗУ, или иногда ради единообразия даже несколько байтов, например LongBool в Pascal.

Читайте также:  Способы изготовления песчано глинистой формы

Чтобы получить шкалу для измерения объемов информации в широком диапазоне от байтов с использованием стандартных префиксов. Формируется целая система больших производных единиц:

  • 1 килобайт = 1024 байта
  • 1 мегабайт = 1024 килобайта
  • 1 гигабайт = 1024 мегабайта

В отличие от общепринятой системы производных единиц, широко используемой, например, в физике, при преобразовании используется коэффициент 1024, а не 1000. Причиной является двоичный характер представления информации в компьютере: 1024 = 210, и поэтому он лучше подходит для измерения двоичной информации.

Научившись измерять объем информации, вы сможете узнать, как быстро она передается. Значение, которое равно количеству информации, передаваемой за единицу времени, обычно называется скоростью передачи информации. Очевидно, что если объем информации I передается по каналу связи за время t, то скорость передачи рассчитывается как отношение I/t.

Скорость передачи данных не может быть произвольно большой, его максимальное предельное значение имеет специальное название — пропускная способность канала связи. Эта характеристика определяется канальным устройством и, что не так очевидно, методом передачи сигнала через него. Другими словами, для разных способов представления данных одна и та же линия связи может иметь разные пропускные способности.

К. Шеннон в созданной им теории информации доказал, что всегда можно добиться передачи пропускной способности линии, и путь к этому заключается в повышении эффективности кодирования. Более того, даже если в канале присутствует шум любого уровня, вы всегда можете закодировать сообщение таким образом, чтобы не было потери информации.

Оба значения — скорость передачи и пропускная способность — по определению измеряются в одних и тех же единицах, которые представляют собой соотношение информационных единиц и времени.

Заключение

Связь между вероятностным и объемным объемом информации неоднозначна. Не каждый текст, написанный в двоичных символах, позволяет измерять объем информации в вероятностном кибернетическом смысле, но он, безусловно, допускает его в объеме. Кроме того, если определенное сообщение позволяет измерить количество информации в обоих смыслах, то это количество не обязательно совпадает, в то время как кибернетический объем информации не может быть больше, чем объем.

В прикладной информатике почти всегда объем информации понимается в широком смысле. Неважно, насколько важно измерение информации, невозможно свести к нему все проблемы, связанные с этим понятием. При анализе информации социального происхождения на первый план могут выходить такие свойства, как правдивость, своевременность, ценность, полнота и т. д.

Их нельзя оценить с точки зрения «уменьшения неопределенности» или количества символов. Обращение к качественной стороне информации породило различные подходы к ее оценке. Аксиологический подход стремится исходить из ценности, практической значимости информации, то есть качественных характеристик, значимых в социальной системе. В семантическом подходе информация рассматривается как с точки зрения формы, так и содержания.

Более того, информация связана с тезаурусом, то есть полнотой систематического набора данных по предмету информации. Очевидно, что эти подходы не исключают количественного анализа, но он становится все более сложным и должен основываться на современных методах математической статистики. Возможно, в будущем, исходя из прогресса в кибернетике, информация будет измеряться по-разному.

Присылайте задания в любое время дня и ночи в ➔

Официальный сайт Брильёновой Натальи Валерьевны преподавателя кафедры информатики и электроники Екатеринбургского государственного института.

Все авторские права на размещённые материалы сохранены за правообладателями этих материалов. Любое коммерческое и/или иное использование кроме предварительного ознакомления материалов сайта natalibrilenova.ru запрещено. Публикация и распространение размещённых материалов не преследует за собой коммерческой и/или любой другой выгоды.

Сайт предназначен для облегчения образовательного путешествия студентам очникам и заочникам по вопросам обучения . Наталья Брильёнова не предлагает и не оказывает товары и услуги.

Источник

Оцените статью
Разные способы