- Кодирование информации
- Содержание
- Код [ править ]
- Виды кодов [ править ]
- Примеры кодов [ править ]
- Однозначно декодируемый код [ править ]
- Префиксный код [ править ]
- Пример кодирования [ править ]
- Преимущества префиксных кодов [ править ]
- Недостатки префиксных кодов [ править ]
- Пример неудачного декодирования [ править ]
- Не префиксный однозначно декодируемый код [ править ]
- Кодирование информации
- Кодирование различных видов информации
- Кодирование текстов
- Кодирования графических данных
- Кодирование звуков
- Кодирование видео
- Сколько способов кодирования информации существует
Кодирование информации
Определение: |
Кодирование информации (англ. information coding) — отображение данных на кодовые слова. |
Обычно в процессе кодирования информация преобразуется из формы, удобной для непосредственного использования, в форму, удобную для передачи, хранения или автоматической обработки. В более узком смысле кодированием информации называют представление информации в виде кода. Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.
Содержание
Код [ править ]
Определение: |
Пусть [math]U[/math] — множество исходных символов, [math]Z[/math] — кодовый алфавит, [math]Z^*[/math] — множество всех строк конечной длины из [math]Z[/math] . Код (англ. code) — отображение [math]c : U \rightarrow Z^*[/math] и [math]c^* : U^* \rightarrow Z^*[/math] так, что [math]c^*(x_1 x_2 . x_n) = c(x_1)c(x_2)..c(x_n)[/math] |
Виды кодов [ править ]
- Код фиксированной длины (англ. fixed-length code) — кодирование каждого символа производится с помощью строк одинаковой длины. Также он называется равномерным или блоковым кодом.
- Код переменной длины (англ. variable-length code) — кодирование производится с помощью строк переменной длины. Также называется неравномерным кодом.
- Префиксный код — код, в котором, никакое кодовое слово не является началом другого. Аналогично, можно определить постфиксный код — это код, в котором никакое кодовое слово не является концом другого.
Все вышеперечисленные коды являются однозначно декодируемыми — для такого кода любое слово, составленное из кодовых слов, можно декодировать только единственным способом.
Примеры кодов [ править ]
- ASCII — блочный.
- Код Хаффмана (англ. Huffman code) — префиксный.
- Азбука Морзе — не является ни блочным, ни префиксным, тем не менее, однозначно декодируемый засчет использования пауз.
Однозначно декодируемый код [ править ]
Определение: |
Однозначно декодируемый код (англ. uniquely decodable code) — код, в котором любое слово составленное из кодовых слов можно декодировать только единственным способом. |
Пусть есть код заданный следующей кодовой таблицей:
[math]a_1 \rightarrow b_1[/math]
[math]a_2 \rightarrow b_2[/math]
[math]a_k \rightarrow b_k[/math]
Код является однозначно декодируемым, только тогда, когда для любых строк, составленных из кодовых слов, вида:
Всегда выполняются равенства:
Заметим, что если среди кодовых слов будут одинаковые, то однозначно декодировать этот код мы уже не сможем.
Префиксный код [ править ]
Определение: |
Префиксный код (англ. prefix code) — код, в котором никакое кодовое слово не является префиксом какого-то другого кодового слова. |
Предпочтение префиксным кодам отдается из-за того, что они упрощают декодирование. Поскольку никакое кодовое слово не выступает в роли префикса другого, кодовое слово, с которого начинается файл, определяется однозначно, как и все последующие кодовые слова.
Пример кодирования [ править ]
[math] c(a) = 00 [/math]
[math] c(b) = 01 [/math]
[math] c(c) = 1 [/math]
Закодируем строку [math]abacaba[/math] :
Такой код можно однозначно разбить на слова:
[math]00\ 01\ 00\ 1\ 00\ 01\ 00[/math]
Преимущества префиксных кодов [ править ]
- Однозначно декодируемый и разделимый
- Удается получить более короткие коды, чем с помощью кода фиксированной длины.
- Возможности декодировки сообщения, не получая его целиком, а по мере его поступления.
Недостатки префиксных кодов [ править ]
- При появлении ошибок в кодовой комбинации, при определенных обстоятельствах, может привести к неправильному декодированию не только данной, но и последующей кодовой комбинации, в отличии от равномерных кодов, где ошибка в кодовой комбинации приводит к неправильному декодированию только ее.
Пример неудачного декодирования [ править ]
Предположим, что последовательность [math]abacaba[/math] из примера передалась неверно и стала:
[math]c^<**>(abacaba) = 0001001\ 1\ 00100[/math]
Разобьем ее согласно словарю:
[math] 00\ 01\ 00\ 1\ 1\ 00\ 1\ 00[/math]
[math]a\quad b\quad a\ c\ c\quad a\ c\ a[/math]
Полученная строка совпадает только в битах, которые находились до ошибочного, поэтому декодирование неравномерного кода, содержащего ошибки, может дать абсолютно неверные результаты.
Не префиксный однозначно декодируемый код [ править ]
Как уже было сказано, префиксный код всегда однозначно декодируем. Обратное в общем случае неверно:
[math] c(a) = 1 [/math]
[math] c(b) = 12 [/math]
[math] c(c) = 31 [/math]
Закодируем [math]abbca[/math] , получим кодовую строку: [math]11212311[/math]
Мы можем ее однозначно декодировать, так как знаем, что слева от двойки и справа от тройки всегда стоит единица.
После декодирования получаем: [math]abbca[/math]
Источник
Кодирование информации
Информация бывает разного вида, например:
— запах, вкус, звук;
— символы и знаки.
В разных отраслях науки, культуры и техники разработаны специальные формы для записи информации.
Код — это группа обозначений, которую можно использовать для отображения информации.
Процесс преобразования сообщения в комбинацию символов в соответствии с кодом называется кодированием .
- Числовой способ — с помощью чисел.
- Символьный способ — информация кодируется с помощью символов того же алфавита, что и исходящий текст.
- Графический способ — информация кодируется с помощью рисунков или значков.
Примеры кодирования информации:
— для отображения звуков русского алфавита используют буквы (АБВГДЕЁЖ…ЭЮЯ);
— для отображения чисел используют цифры (0123456789);
— звуки записывают нотами и другими символами;
— слепые используют азбуку Брайля, где буква состоит из шести элементов: дырочек и бугорков.
Надо учитывать, что не зная принципы кодирования информации, один и тот же код, можно понять по-разному, например, число 300522005 можно посчитать за число, номер телефона или за количество населения.
В компьютере кодируют введённую информацию: текст, изображения и звуки. В закодированном виде компьютер обрабатывает, хранит и пересылает информацию. Чтобы вывести информацию из компьютера в понятной для человека форме, её надо декодировать .
Методами шифрования занимается специальная наука — криптография .
В компьютере для кодирования любой информации используются только два символа: 0 и 1 , так как компьютерной технике проще реализовывать два состояния:
0 — сигнала нет (нету напряжения или не течёт ток);
1 — сигнал есть (есть напряжение или течёт ток).
Создание кода.
Одним битов можно кодировать два состояния: 0 и 1 (да и нет, чёрный и белый). При увеличении количества битов на один получится в два раза больше кодов.
Пример:
Два бита создают 4 разных кода: 00, 01, 10 и 11;
три бита создают 8 разных кодов: 000, 001, 010, 011, 100, 101, 110, и 111.
Кодирование различных видов информации
Кодирование текстов
При кодировании текста каждому символу присваивается какое-то значение, например, порядковый номер.
Первый популярный компьютерный стандарт кодирования текста имеет название ASCII (American Standart Code for Information Interchange), в котором для кодирования каждого символа используются 7 бит.
7-ю битами можно закодировать 128 символов: большие и маленькие латинские буквы, цифры, знаки препинания, а так же специальные символы, например, «§».
Стандарту создавали разные варианты, дополняя код до 8 бит (256 символов), чтобы можно было кодировать национальные символы, например, латышскую букву ā.
Но 256 символов не хватило, чтобы кодировать все символы разных алфавитов, поэтому создали новые стандарты. Один из самых популярных в наше время, это UNICODE. В котором каждый символ кодируют 2-мя байтами, получается в итоге 62536 разных кодов.
Кодирования графических данных
Почти все созданные и обработанные изображения, хранящиеся в компьютере, можно поделить на две группы:
Любое изображение созданное в растровой графике состоит их цветных точек. Эти точки называют пикселями (pixel) .
Для кодирования не цветных изображений обычно используют 256 оттенков серого, начиная от белого, заканчивая чёрным. Для кодирования всех цветов надо 8 битов (1 байт).
Для кодирования цветных изображений обычно используют три цвета: красный, зелёный и синий. Цветной тон получается при смешивании этих трёх цветов.
Размер изображения можно посчитать, умножив его ширину на длину в пикселях. Например, изображение размером 200⋅100 пикселей, занимает 60000 байт.
Кодирование звуков
Звуки появляются из-за колебаний воздуха. У звука есть две величины:
— амплитуда колебания, которая указывает на громкость звука;
— частота колебания, которая указывает на тональность звука.
Звук можно переделать в электрический сигнал, например, микрофоном.
Звук кодируют, после точного интервала времени измеряя размер сигнала и присваивая ему бинарную величину. Чем чаще проводятся эти измерения, тем лучше качество звука.
Пример:
На одном компакт диске, с объемом 700 Мб, может вместиться 80 минут звука CD качества.
Кодирование видео
Фильм состоит из кадров, которые быстро меняются. Кодированный фильм содержит информацию о размере кадра, используемых цветах, и количество кадров в секунду (обычно 30), как и способ записи звука — каждому кадру отдельно или всему фильму сразу.
Источник
Сколько способов кодирования информации существует
Представление информации происходит в различных формах в процессе восприятия окружающей среды живыми организмами и человеком, в процессах обмена информацией между человеком и человеком, человеком и компьютером, компьютером и компьютером и так далее. Информация, поступает в виде условных знаков или сигналов самой разной физической природы.
Это свет, звук, запах, касания; это слова, значки, символы, жесты и движения.
Для того чтобы произошла передача информации, мы должны не только принять сигнал от кого-то, но и расшифровать его.
Так, услышав звонок будильника, человек понимает, что пришло время просыпаться;
телефонный звонок — кому-то нужно с нами поговорить;
школьный звонок сообщает учащимся о долгожданной перемене.
Для правильного понятия разных сигналов требуется разработка кода или кодирование.
Код — это система условных знаков для представления информации.
Кодирование — это перевод информации в удобную для передачи, обработки или хранения форму с помощью некоторого кода.
Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.
В процессе обмена информацией часто приходится производить операции кодирования и декодирования информации. При вводе знака алфавита в компьютер путем нажатия соответствующей клавиши на клавиатуре происходит кодирование знака, то есть преобразование его в компьютерный код. При выводе знака на экран монитора или принтер происходит обратный процесс — декодирование, когда из компьютерного кода знак преобразуется в его графическое изображение.
Обратное преобразование называется декодированием.
Декодирование — это процесс восстановления содержания закодированной информации.
Можно рассмотреть в качестве примера кодирования соответствие цифрового и штрихового кодов товара. Такие коды имеются на каждом товаре и позволяют полностью идентифицировать товар (страну и фирму производителя, тип товара и др.).
Знакам цифрового кода (цифрам) соответствуют группы знаков штрихового кода (узкие и широкие штрихи, а также размеры промежутков между ними) — рис. Для человека удобен цифровой код, а для автоматизированного учета -штриховой код, который считывается с помощью узкого светового луча и подвергается последующей обработке в компьютерных бухгалтерских системах учета.
Существует три основных способа кодирования информации:
●Числовой способ — с помощью чисел.
●Символьный способ — информация кодируется с помощью символов того же алфавита, что и исходящий текст.
●Графический способ — информация кодируется с помощью рисунков или значков.
Существует равномерное и неравномерное кодирование. При равномерном кодировании сообщение декодируется однозначно. При неравномерном кодировании для однозначного декодирования сообщения нужно, чтобы выполнялось прямое и обратное условие Фано(прямое: никакой код не должен быть началом другого кода, обратное: никакой код не должен быть концом другого кода)
Понимать, что мы можем закодировать сообщение, даже если условие Фано не выполняется, но возможно не сможем его однозначно декодировать.
Однозначно декодировать –получить один единственный точный вариант.
Двоичное кодирование информации в компьютере.
В компьютере для представления информации используется двоичное кодирование, так как удалось создать надежно работающие технические устройства, которые могут со стопроцентной надежностью сохранять и распознавать не более двух различных состояний (цифр):
· электромагнитные реле (замкнуто/разомкнуто), широко использовались в конструкциях первых ЭВМ;
· участок поверхности магнитного носителя информации (намагничен/размагничен);
· участок поверхности лазерного диска (отражает/не отражает);
· триггер, может устойчиво находиться в одном из двух состояний, широко используется в оперативной памяти компьютера.
Все виды информации в компьютере кодируются на машинном языке, в виде логических последовательностей нулей и единиц —
Цифры двоичного кода можно рассматривать как два равновероятных состояния (события). При записи двоичной цифры реализуется выбор одного из двух возможных состояний (одной из двух цифр) и, следовательно, она несет количество информации, равное 1 биту.Даже сама единица измерения количества информации бит (bit) получила свое название от английского словосочетания BinarydigiT (двоичная цифра).Важно, что каждая цифра машинного двоичного кода несет информацию в 1 бит. Таким образом, две цифры несут информацию в 2 бита,три цифры — в 3 бита и так далее. Количество информации в битах равно количеству цифр двоичного машинного кода.
Кодирование текстовой информации.
Текстовую информацию кодируют двоичным кодом через обозначение каждого символа алфавита определенным целым числом. С помощью восьми двоичных разрядов возможно закодировать 256 различных символов. Данного количества символов достаточно для выражения всех символов английского и русского алфавитов.
Для английского языка — Институт стандартизации США выработал и ввел в обращение систему кодирования ASCII (AmericanStandardCodeforInformationInterchange – стандартный код информационного обмена США).
Для кодировки русского алфавита были разработаны несколько вариантов кодировок:
1) Windows-1251 – введена компанией Microsoft — в Российской Федерации она нашла широкое распространение.
2) КОИ-8 (Код Обмена Информацией, восьмизначный) – другая популярная кодировка российского алфавита, распространенная в компьютерных сетях.
3) ISO (InternationalStandardOrganization – Международный институт стандартизации) – международный стандарт кодирования символов русского языка. На практике эта кодировка используется редко.
Ограниченный набор кодов (256) создает трудности для разработчиков единой системы кодирования текстовой информации. Вследствие этого было предложено кодировать символы не 8-разрядными двоичными числами, а числами с большим разрядом, что вызвало расширение диапазона возможных значений кодов. Система 16-разрядного кодирования символов называется универсальной – UNICODE.
Кодирование графической информации.
Существует несколько способов кодирования графической информации.
поэтому способ растрового кодирования базируется на использовании двоичного кода представления графических данных. Общеизвестным стандартом считается приведение черно-белых иллюстраций в форме комбинации точек с 256 градациями серого цвета, т. е. для кодирования яркости любой точки необходимы 8-разрядные двоичные числа.
В основу кодирования цветных графических изображений положен принцип разложения произвольного цвета на основные составляющие, в качестве которых применяются три основных цвета: красный (Red), зеленый (Green) и синий (Blue). На практике принимается, что любой цвет, который воспринимает человеческий глаз, можно получить с помощью механической комбинации этих трех цветов. Такая система кодирования называется RGB. При применении 24 двоичных разрядов для кодирования цветной графики такой режим носит название полноцветного (TrueColor).
Для любого из основных цветов дополнительным будет являться цвет, который образован суммой пары остальных основных цветов. Соответственно среди дополнительных цветов можно выделить голубой (Cyan), пурпурный (Magenta) и желтый (Yellow). Принцип разложения произвольного цвета на составляющие компоненты используется не только для основных цветов, но и для дополнительных. Этот метод кодирования цвета применяется в полиграфии, но там используется еще и четвертая краска – черная (Black), поэтому эта система кодирования обозначается четырьмя буквами – CMYK. Для представления цветной графики в этой системе применяется 32 двоичных разряда. Данный режим также носит название полноцветного.
Кодирование звуковой информации.
В настоящий момент не существует единой стандартной системы кодирования звуковой информации, так как приемы и методы работы со звуковой информацией начали развиваться по сравнению с методами работы с другими видами информации самыми последними. Поэтому множество различных компаний, которые работают в области кодирования информации, создали свои собственные корпоративные стандарты для звуковой информации. Но среди этих корпоративных стандартов выделяются два основных направления.
В основе метода FM (FrequencyModulation) положено утверждение о том, что теоретически любой сложный звук может быть представлен в виде разложения на последовательность простейших гармонических сигналов разных частот. Каждый из этих гармонических сигналов представляет собой правильную синусоиду и поэтому может быть описан числовыми параметрами или закодирован. Звуковые сигналы образуют непрерывный спектр. Обратное преобразование, которое необходимо для воспроизведения звука, закодированного числовым кодом, производится с помощью цифроаналоговых преобразователей (ЦАП). Из-за таких преобразований звуковых сигналов возникают потери информации, которые связаны с методом кодирования, поэтому качество звукозаписи с помощью метода FM обычно получается недостаточно удовлетворительным. Этот метод широко использовался в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.
Основная идея метода таблично-волнового синтеза (Wave-Table) состоит в том, что в заранее подготовленных таблицах находятся образцы звуков для множества различных музыкальных инструментов. Данные звуковые образцы носят название сэмплов. Числовые коды, которые заложены в сэмпле, выражают такие его характеристики, как тип инструмента, номер его модели, высоту тона и тд. Поскольку для образцов применяются реальные звуки, то качество закодированной звуковой информации получается очень высоким и приближается к звучанию реальных музыкальных инструментов, что в большей степени соответствует нынешнему уровню развития современной компьютерной техники.
Множество кодов очень прочно вошло в нашу жизнь.
●числовая информация кодируется арабскими, римскими цифрами и др.
●для общения и письма мы используем код — русский язык, в Китае — китайский и т.д.
●с помощью нотных знаков кодируется любое музыкальное произведение, а на экране проигрывателя вы можете увидеть громкий или тихий звук, закодированный с помощью графика.
●часто бывает так, что информацию надо сжать и представить в краткой, но понятной форме. Тогда применяют пиктограммы, например, на двери магазина, на столбах в парке, на дороге.
Для передачи информации, людьми были придуманы специальные коды, к ним относятся:
Источник