Семантический способ измерения информации кто ввел

Семантическая мера информации: в чем измеряется, что это такое

Содержание:

Семантическая мера информации измеряется в тезаурусе и экономических показателях. Вообще, семантика — это наука, изучающая смысл информации. Поэтому в качестве семантической меры информации применяется тезаурусная мера, так как она связывает смысловую нагрузку информации со способностью пользователя информации правильно ее принять и осмыслить.

Одна и та же информация из разных источников разными людьми может восприниматься по-разному, в меру их понимания. Чтобы как-то определить способность воспринимать ту или иную информацию, ввели такое понятие, как «тезаурус пользователя».

Тезаурус пользователя — это совокупность всех данных, которые уже есть в наличии у пользователя, чтобы воспринять новую информацию и пополнить свой «тезаурус». На практике это выглядит так:

Допустим, вы слышите сообщение на китайском языке. Если вы совершенно не понимаете китайский язык, то такое сообщение для вас будет абсолютно пустым и бессмысленным. Но для человека, который понимает китайский язык, такое сообщение будет понятным, и, скорее всего, он почерпнет из него для себя какую-то полезную информацию.

Семантическая мера информации измеряется в тезаурусе

Мера количества воспринимаемой пользователем информации напрямую будет зависеть от содержания информации и тезауруса пользователя. Фактически мера количества информации показывает, какой объем информации пользователь смог воспринять и тем самым пополнить свой тезаурус.

Такое соотношение можно выразить формулой:

  • Ic — это мера количества воспринимаемой информации,
  • Sp — это тезаурус пользователя.

Мера количества семантической информации может равняться нулю «Ic = 0» в двух случаях:

  • когда тезаурус пользователя примерно равен нулю «Sp = 0», то есть в этом случае пользователь просто не понимает входящую информацию, поэтому она для него будет бесполезной;
  • когда тезаурус пользователя стремится к бесконечности «Sp → ∞» — в этом случае пользователь уже знаком с поступающей информацией, она ему не несет абсолютно никакой ценности и, соответственно, тоже не нужна.

Семантическая мера информации будет оптимальной только в том случае, когда поступающая информация будет понятна пользователю, но при этом будет нести в себе какие-то новые данные, то есть данные, которые отсутствуют в его тезаурусе.

Из этого можно сделать простой вывод, что семантическая мера информации измеряется очень относительно и индивидуально к каждому пользователю.

Для измерения относительности семантической меры информации ввели специальный коэффициент, который вычисляется по формуле:

С=Ic : V, где:

  • Iс — это количество воспринимаемой семантической информации,
  • V — это объем семантической информации.

Какие еще есть меры информации в информатике

Что такое семантическая мера информации — мы разобрались. Это смысловой критерий, заложенный в информацию, который показывает значимость самой информации в зависимости от способности пользователей воспринимать ее. Но, помимо семантической меры информации, в информатике есть еще как минимум две меры:

  1. Синтаксическая — это обезличенный показатель, который не выражает никакого смыслового отношения к пользователю. По сути, эта мера показывает лишь количество символов в информации. Типичный пример — это бит, байт, килобайт и т. д. в современных компьютерах. Например, когда мы произносим слово «байт», мы знаем, что он равен такому-то количеству битов (в зависимости от кодировки), и все. Мы не знаем, какую информацию несет в себе «байт».
  2. Прагматическая — это очень относительная величина, которая показывает полезность информации для конкретного пользователя. То есть эта величина показывает, смог ли пользователь достичь своей цели благодаря конкретной информации или нет. Другими словами, прагматическая мера информации — это показатель качества данных для конкретного пользователя.

Заключение

Сегодня мы познакомились с таким понятием, как «семантическая мера информации», и узнали, в чем она измеряется. Главное, что нужно запомнить: семантическая мера информации — это относительный показатель смысла предоставленной информации для конкретного пользователя.

Источник

Семантическая мера информации

1.4.2.2 Семантическая мера информации

Семантика – наука о смысле, содержании информации.

Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя принимать поступившее сообщение. Одно и то же информационное сообщение (статья в газете, объявление, письмо, телеграмма, справка, рассказ, чертеж, радиопередача и т. п.) может содержать разное количество информации для разных людей в зависимости от их предшествующих знаний, уровня понимания этого сообщения и интереса к нему.

Для измерения количества семантической информации используется понятие «тезаурус пользователя», т. е. совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рисунке 1. 2.

Рис. 1. 2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса IC = f(Sp)

Рассмотрим два предельных случая, когда количество семантической информации IC равно 0:

— при пользователь не воспринимает, не понимает поступающую информацию;

— при пользователь все знает и поступающая информация ему не нужна.

Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом (), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Читайте также:  Кровотечение определение виды способы временной остановки

Следовательно, количество семантической информации и новых знаний в сообщении, получаемое пользователем, является величиной относительной.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, определяемый как отношение количества семантической информации к ее объему:

.

1.4.2.3 Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Это величина относительная, обусловленная особенностями использования информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Введенные меры информации представлены в таблице 1.3.

Таблица 1.3 Единицы измерения информации и примеры

Степень уменьшения неопределенности

Единицы представления информации

Бит, байт, кбайт и т. д.

Пакет прикладных программ, персональный компьютер, компьютерные сети и т. д.

Рентабельность, производительность, коэффициент амортизации и т. д.

Емкость памяти, производительность компьютера, скорость передачи данных и т. д.;

время обработки информации и принятия решений

1.4.3 Качество информации

Получая какую-либо информацию, человек пытается ее осмыслить и оценить: Что в ней нового? Насколько она ему важна? Правдива ли она? Может возникнуть множество вопросов относительно полученной информации. Как же правильно ее оценить? Оказывается, любая информация должна обладать рядом свойств. Только определив, насколько ваша информация отвечает присущим ей свойствам, можно оценить ее качество. Качество информации – обобщенная положительная характеристика информации, отражающая степень ее полезности для пользователя.

Важнейшие свойства информации: достоверность, полнота, доступность, актуальность, защищенность, ценность, содержательность, своевременность, защищенность.

Одно из свойств информации – достоверность, означающая истинное, объективное отражение действительности. Как известно, каждый человек воспринимает окружающую действительность субъективно, имея свои собственные, отличные от других взгляд и мнение, поэтому передаваемая или получаемая человеком информация не может быть абсолютно объективна. Она лишь может быть максимально приближена к объективной, например прогноз погоды. Существуют различные источники получения информации о предстоящей погоде: собственные наблюдения, сводки погоды, составленные метеослужбами различных ведомств, городов, а также гидрометеорологическими службами целых регионов. Каждая из этих служб имеет свои средства наблюдения и составления прогнозов, учитывает какие-то показатели больше, какие-то меньше. У всех различная точность предсказания погоды.

Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т. п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:

— формальная, измеряется значением единицы младшего разряда числа;

— реальная, определяется значением единицы последнего разряда числа, верность которого гарантируется;

— максимальная, ее можно получить в конкретных условиях функционирования системы;

— необходимая, определяется функциональным назначением показателя.

Рассмотрим на примере прогноза погоды свойства информации. Получая сводку погоды, в одних случаях нас интересует температура и влажность воздуха, в других – осадки и направление ветра, в третьих, возможно, нам потребуется полная картина предстоящей погоды. Полнота информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор) показателей. Как неполная, т. е. недостаточная для принятия правильного решения, так и избыточная информации снижают эффективность принимаемых пользователем решений.

Также важно, чтобы получаемая информация соответствовала данной ситуации. Например, можно получить полную сводку погоды из достоверного источника, но она окажется ненужной, если будет содержать сведения недельной давности. Иными словами, информация должна быть актуальной, что определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и интервала времени, прошедшего с момента возникновения данной информации.

Однако достоверная, полная и актуальная информация о погоде на предстоящую неделю может быть записана (или произнесена) в терминах и обозначениях синоптиков, непонятных большинству людей. В этом случае она окажется бесполезной. Значит информация должна быть выражена в таком виде, который был бы понятен получателю данной информации. В этом заключается следующее свойство информации – доступность, которая обеспечивается выполнением соответствующих процедур ее получения и преобразования.

Получая новую информацию, человек решает, нужна ли она для решения какой-то данной проблемы. Одна и та же информация может быть очень важной для одного и быть абсолютно бесполезной для другого. От того, какие задачи можно решить с помощью данной информации, зависит ее ценность. В зависимости от того, какой объем поступивших данных был переработан, определяется содержательность информации, которая отражает семантическую емкость.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных. Одинаково нежелательны как преждевременная подача информации (когда она еще не может быть усвоена), так и ее задержка. Только своевременно полученная информация может принести ожидаемую пользу. Своевременность информации означает ее поступление в соответствии со временем решения поставленной задачи.

Защищенность – свойство, характеризующее невозможность несанкционированного использования или изменения.

Источник

Семантический способ измерения информации кто ввел

Основные подходы к определению понятия «информация». Измерение информации в теории информации и в технике. Вычисление количества информации.

Термин «информация» происходит от латинского informatio , что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение – это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.д. В широком смысле информация – это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.

Информация – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределённости, неполноты знаний. [Из учебника: Макарова Н.В. и др. Информатика. – М., 2005.].

Понятие информация является одним из фундаментальных в современной науке. Однако формально определить это понятие довольно сложно (как понятия «точка» или «прямая» в геометрии). В бытовом понимании с термином «информация» обычно ассо­циируются некоторые сведения, данные, знания и т.п.

Сообщение от источника к получателю всегда передается посредством какой-нибудь среды, являющейся в таком случае «каналом связи» (звук – воздух, текст – лист и т.п.).

Человеку свойственно субъективное восприятие информации через некоторый на­бор её свойств: важность, достоверность, своевременность, доступность и т.д. В этом смысле одно и то же сообщение, передаваемое от источника к получателю, может передавать информацию в разной степени.

Понятие информации нельзя считать лишь техническим, междисциплинарным и даже наддисциплинарным термином. Информация – это фундаментальная философская категория. Попытки рассмотреть категорию информации с позиций философии привели к возникновению различных концепций.

Представители атрибутивной концепции (Абдеев, Баженов, Петрушенко, Урсул и др.) считают, что информация – атрибут материи, т.е. свойство любой системы объективной реальности.

Приверженцы функциональной концепции (Вержбицкий, Моисеев, Царегородцев и др.) связывают информацию с протеканием информационных процессов в биологических, социальных и социотехнических системах, т.е. с функционированием самоорганизующихся систем. Они признают тот факт, что информация не может быть связана с неживыми системами объективного мира.

Представители антропоцентрической концепции (Цидря, Афанасьев, Шрейдер и др.) считают, что информацию нельзя рассматривать вне человека и вне общества; она рассматривается как смысл сигнала, полученного системой из внешнего мира.

Ряд специалистов утверждают, что все эти точки зрения имеют право на существование, так как информация используется в соответствующих научных областях. В частности, информация как свойство материи изучается в философии и в физике (атрибутивная концепция); информация как содержание сигнала изучается в лингвистике, психологии (антропоцентрическая); информация как функция управления – в кибернетике, биологии (функциональная). В информатике информация рассматривается в соответствии с функциональной и антропоцентрической концепциями.

Измерение информации (различные подходы)

Наиболее часто используются следующие два способа измерения информации: объёмный и вероятностный.

Объёмный подход. В двоичной системе счисления знаки 0 и 1 будем называть битами (от английско­го выражения BInary digiTs — двоичные цифры). Отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: намагничено / не намагничено, вкл./выкл., заряжено / не заряжено и др.

Объём информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом невозмож­но нецелое число битов.

Для удобства использования введены и более крупные, чем бит, единицы коли­чества информации. Так, двоичное слово из восьми знаков содержит один байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта – мегабайт (Мбайт), а 1024 мегабайта — гигабайт (Гбайт).

Энтропийный (вероятностный) подход. Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определённое представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределённостей называется энтропией. Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень её неопределённости. Поступающее сообщение полностью или частично снимает эту неопределённость, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.

Рассмотрим пример вычисления количества информации сообщения о наступлении одного из N равновероятных событий. Обозначим численную величину, измеряющую неопределённость (энтропию) через H . Величины N и H связаны некоторой функциональной зависимостью: H = f ( N ). Эта функция, очевидно, является возрастающей, неотрицательной и определённой при всех значениях 1, 2, …, N .

Обозначим через H 1 неопределённость, имеющуюся до совершения события. Через H 2 – неопределённость после наступления события. Тогда за I – количество информации об исходе опыта – примем разность неопределённостей до и после опыта: I = H 1 – H 2.

В случае, когда получен конкретный результат, имевшаяся неопределённость снята (т.к. H 2 = 0). Таким образом, количество полученной информации совпадает с первоначальной энтропией. Неопределённость, заключённая в опыте совпадает с информацией об исходе этого опыта.

Определим функцию H = f ( N ). Будем варьировать N (число возможных исходов) и M (число опытов). Общее число исходов равно X = N M . Каждый исход – некоторый вектор длины M , состоящий из знаков 1, 2, …, N .

Ситуацию с проведением М опытов можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем – однократных опытов. Энтропия такой системы в М раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»): f ( N M ) = M f ( N ).

Прологарифмируем левую и правую части равенства X = N M . Получим:

, .

Подставив полученное для M значение в равенство f ( N M ) = M f ( N ), получим:

.

Обозначив положительную константу , получим формулу: .

Т.е. получаем: . Обычно принимают , тогда .

Полученная формула называется формулой Хартли.

Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исхо­дов (например, бросание монеты). Такая единица количества информации называется битом.

Все N исходов рассмотренного выше опыта являются равновероятными и по­этому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: . При этом вероятность i-гo исхода Р i ; равняется, очевидно, 1/ N. Таким образом:

.

Эта же (последняя) формула принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. значения Р i могут различаться). Эта формула называется формулой Шеннона.

Коэффициентом информативности ( лаконичностью) сообщения называют соотношение количества информации к объёму данных:

, причём

Замечание: под объёмом данных V Д в сообщении здесь имеется в виду количество символов в этом сообщении (т.е. то, что понимается под битом при объёмном подходе).

Пример 1. Определение количества информации, связанное с появлением каждого символа в сообщении на русском языке. Будем считать, что N = 34 (33 буквы и пробел). Тогда:

(бит)

Пример 2. Однако, в словах русского языка (как и в других языках) различные буквы встречаются неодинаково часто. Если воспользоваться таблицей вероятностей частоты употребления различных знаков русского алфавита, то по формуле Шеннона можно вычислить значение H . Полученный результат будет немного меньше вычисленного ранее (4,72), так как величина Н, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.

Замечание: Для одного и того же сообщения при использовании разных подходов могут получаться разные значения количества информации (но приближённо равные). Количество информации, полученное по формулам Хартли-Шеннона, не может быть больше количества информации, полученного объёмным методом.

Пример 3. Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со зна­ками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления ( Р0 = Р1 = 0,5), то количество информации на один знак при двоичном кодиро­вании будет равно Н = log22 = 1 бит. Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нём.

Другие (менее известные) способы измерения информации

Алгоритмический подход. Любому сообщению можно приписать количественную характеристику, отражающую сложность (размер) программы, которая позволяет его произвести. Так как имеется много различных вычислительных машин и языков программирования, т.е. разных способов задания алгоритма, то для определённости задаётся некоторая конкретная машина, например машина Тьюринга. Тогда в качестве количественной характеристики сообщения можно взять минимальное число внутренних состояний машины, требующихся для воспроизведения данного сообщения.

Семантический подход. Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семанти­ческие свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя».

Тезаурус – это совокупность сведений, которыми располагает пользо­ватель или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации Ic воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Например, при S p ≈ 0 пользователь не воспринимает, не понимает поступающую информацию; а при Sр → ∞ пользователь всё знает, и поступающая информация ему не нужна.

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sр, когда поступающая информация понятна пользователю и несёт ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему: .

Прагматический подход. Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особеннос­тями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых изме­ряется целевая функция.

Источник

Читайте также:  Как рассчитать норму амортизации нелинейным способом
Оцените статью
Разные способы
Мера информации Единицы измерения Примеры (для компьютерной области)
Прагматическая Ценность использования