Стандарт Unicode
Ограниченность 8-битной кодировки, не позволяющей одновременно пользоваться несколькими языками, а также трудности, связанные с необходимостью преобразования одной кодировки в другую, привели к разработке нового кода. В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира.
Unicode — это «уникальный код для любого символа, независимо от платформы, независимо от программы, независимо от языка» (www.unicode.org).
В Unicode на кодирование символов отводится 31 бит. Первые 128 символов (коды 0-127) совпадают с таблицей ASCII. Далее размещены основные алфавиты современных языков: они полностью умещаются в первой части таблицы, их коды не превосходят 65 536 = 2 16 .
Стандарт Unicode описывает алфавиты всех известных, в том числе и «мёртвых», языков. Для языков, имеющих несколько алфавитов или вариантов написания (например, японского и индийского), закодированы все варианты. В кодировку Unicode внесены все математические и иные научные символьные обозначения и даже некоторые придуманные языки (например, язык эльфов из трилогии Дж. Р. Р. Толкина «Властелин колец»).
Всего современная версия Unicode позволяет закодировать более миллиона различных знаков, но реально используется чуть менее 110 000 кодовых позиций.
Для представления символов в памяти компьютера в стандарте Unicode имеется несколько кодировок.
В операционных системах семейства Windows используется кодировка UTF-16. В ней все наиболее важные символы кодируются с помощью 2 байт (16 бит), а редко используемые — с помощью 4 байт.
В операционной системе Linux применяется кодировка UTF-8, в которой символы могут занимать от 1 (символы, входящие в таблицу ASCII) до 4 байт. Если значительную часть текста составляют цифры и латинские буквы, то это позволяет в несколько раз уменьшить размер файла по сравнению с кодировкой UTF-16.
Источник
Известно что юникод использует способ кодировки символов с помощью 2 байт 16 бит мышь клавиатура
Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах?
1 символ в коде Unicode кодируется 16-ю битами, 1 символ в коде КОИ-8 — 8-ю битами. Количество символов при перекодировке не меняется, поэтому обозначим его за .
Решая его найдём следовательно,
.
Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке длиной в 20 символов, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. На сколько байт уменьшилось при этом информационное сообщение? В ответе запишите только число.
16 бит = 2 байт, 8 бит = 1 байт.
Было в Unicode: 20 * 2 = 40 байт, стало в КОИ-8: 20 байт, следовательно, сообщение уменьшилось на 40 — 20 = 20 байт.
Текстовый документ, состоящий из 4096 символов, хранился в 16-битной кодировке Unicode. Этот документ был преобразован в 8-битную кодировку Windows-1251. Укажите, на сколько Кбайт уменьшился объем файла. В ответе запишите только число.
4096 = 1024⋅4, 16 бит = 2 байта, 8 бит = 1 байт
Было в Unicode: 2 12 * 2 = 2 13 байт
Стало в Windows-1251: 2 12 байт.
Объём файла уменьшился на 2 13 байт — 2 12 байт = 2 12 байт = 4 Кбайта
Текстовый документ, состоящий из 5120 символов, хранился в 8-битной кодировке КОИ-8. Этот документ был преобразован в 16-битную кодировку Unicode. Укажите, какое дополнительное количество Кбайт потребуется для хранения документа. В ответе запишите только число.
Объем информации в кодировке КОИ-8: 5120 символов * 1 байт = 5120 байт.
Объем информации в 16-битной кодировке Unicode: 5120 символов * 2 байта = 10240 байт.
10240 байт — 5120 байт = 5120 байт.
5120 : 1024 = 5 Кбайт.
Текстовый документ хранился в 8-битной кодировке КОИ-8. Этот документ был преобразован в 16-битную кодировку Unicode, при этом размер памяти, необходимой для хранения документа увеличился на 4 Кбайт. При этом хранится только последовательность кодов символов. Укажите, сколько символов в документе. В ответе запишите только число.
Обозначим количество символов в документе за .
Тогда объем информации в кодировке КОИ-8: бит =
байт
Объем информации в 16-битной кодировке Unicode: бит =
байт.
Размер памяти увеличился на байт = 4*1024 байт .
Откуда = 4096.
Источник
Известно что юникод использует способ кодировки символов с помощью 2 байт 16 бит мышь клавиатура
Формы представления информации в компьютере.
Кодирование информации.
Термин « информация » (от лат. informatio ) означает сведения, разъяснения, изложение.
В общем виде информацией называют любые передаваемые либо хранящиеся данные или сведения, например сообщение о каких-либо событиях, о чьей-либо деятельности и т. п.
Информация – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые воспринимают информационные системы (живые организмы, управляющие машины и др.) в процессе жизнедеятельности и работы.
Содержание и передача информации
Информация может быть представлена в самых разнообразных формах:
· в виде световых или звуковых сигналов;
· текстов, рисунков, чертежей, фотографий;
· электрических и нервных импульсов;
· жестов и мимики;
· запахов и вкусовых ощущений;
· хромосом, посредством которых передаются признаки и
· иных форм представления информации.
Предметы, процессы, явления материального или нематериального свойства, рассматриваемые с точки зрения их информационных свойств, называют информационными объектами.
Представление графической информации в ЭВМ
Вся информация в компьютере представляется как набор огромного (сотни тысяч и миллионы) числа нулей и единиц, сгруппированных в байты.
Байт – единица хранения и обработки цифровой информации, совокупность битов, обрабатываемая компьютером одномоментно.
В современных вычислительных системах байт состоит из 8 бит.
Иногда в компьютерных стандартах для однозначного обозначения группы из 8 битов используют термин « октет». Такое представление информации называют цифровым или двоичным. Обработку двоичных данных выполняют с помощью специальных правил, определяемых так называемой двоичной арифметикой.
Всякая информация представлена в виде последовательности байтов.
Для того чтобы компьютер различал все виды информации, используют формат файла, определяющий принадлежность информации к определенному виду: текстовый, графический, звуковой и др.
Каждая группа байтов, представляющая определенную закодированную информацию и показанная пользователю в одном из форматов файловой системы, называется файлом.
Файл – единица хранения информации, может хранить десятки, сотни байтов.
Для измерения количества закодированной информации в виде двоичного кода используют единицы измерения емкости информации компьютера (килобайт, мегабайт, гигабайт, терабайт, петабайт).
Графическая информация может быть представлена в аналоговой и дискретной формах.
Примером аналогового представления графической информации может служить живописное полотно, цвет которого изменяется непрерывно, а дискретного – изображение, напечатанное с помощью принтера и состоящее из отдельных точек разного цвета.
Графические изображения из аналоговой (непрерывной) формы в цифровую (дискретную) преобразуются путем пространственной дискретизации .
Пространственную дискретизацию изображения можно сравнить с построением мозаики.
Изображение разбивается на отдельные маленькие элементы (точки, или пиксели), где каждый элемент может иметь свой цвет.
Пиксель – минимальный участок изображения, для которого независимым образом можно задать цвет.
В результате пространственной дискретизации графическая информация представляется в виде растрового изображения, которое формируется из определенного количества строк, содержащих в свою очередь определенное количество точек.
Для кодирования графических данных применяют такой метод кодирования, как растр.
Координаты точек и их свойства описывают с помощью целых чисел, которые кодируются с помощью двоичного кода.
Графические объекты серых оттенков могут быть описаны комбинацией точек с 256 градациями серого цвета, т. е. для кодирования яркости любой точки достаточно 8-битного двоичного числа.
Меры информации в вычислительной технике
В качестве единицы измерения информации условно принимают один бит.
Бит – это минимальная единица информации, описывающая только два возможных состояния.
Один бит , т. е. двоичный разряд, может принимать значение 0 или 1.
Восемь последовательных битов составляют байт: 00101011, 00000000, 11111111, 10101010.
Бит – слишком мелкая единица измерения.
На практике чаще применяют более крупную единицу – байт.
Байт – основная единица представления информации в вычислительной технике, равная 8 битам.
Именно 8 битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256 = 28).
Широко используют также еще более крупные производные единицы информации:
· 1 килобайт (Кбайт) = 1024 байт = 210 байт;
· 1 мегабайт (Мбайт) = 1024 Кбайт = 220 байт;
· 1 гигабайт (Гбайт) = 1024 Мбайт = 230 байт;
· 1 терабайт (Тбайт) = 1024 Гбайт = 240 байт;
· 1 петабайт (Пбайт) = 1024 Тбайт = 250 байт.
Представить соизмеримость единиц измерения информации можно так: если на условной шкале изобразить 1 бит как 1,25 мм, то 1 байт в этом масштабе будет представлен 1 см, 1 Кбайт – 10 м, 1 Мбайт – 10 км, а 1 Гбайт – 10 000 км, что соответствует расстоянию от Москвы до Владивостока.
Для преобразования числовой, текстовой, графической, звуковой информации в цифровую форму необходимо применить кодирование.
Кодирование информации – это преобразование данных одного типа через данные другого типа, т. е. представление сообщений в конкретном виде при помощи некоторой последовательности знаков.
Правило отображения одного набора знаков в другой называют кодом.
Способ представления информации с помощью двух символов (0 и 1) называют двоичным кодом.
В ЭВМ применяют систему двоичного кодирования, основанную на представлении данных последовательностью двух знаков: 1 и 0, которые называют двоичными цифрами.
Компьютер может обрабатывать данные, которые представлены в специальном виде – только с помощью нулей и единиц.
Каждый 0 или 1 называют битом, т. е. единицей информации в ЭВМ.
Бит – это одна двоичная цифра : 0 или 1.
Одним битом можно закодировать два значения: 1 или 0.
Двумя битами можно закодировать уже четыре значения: 00, 01, 10, 11.
Тремя битами кодируют 8 разных значений.
Добавление одного бита удваивает количество значений, которое можно закодировать:
биты . 1 2 3 4 5 6 … . n
кодируемых значений . 2 4 8 16 32 64 … . 2 n.
Кодирование целых и действительных чисел
Целые числа кодируют просто переводом чисел из одной системы счисления в другую.
Для кодирования доступно несколько способов представления действительных чисел: 4, 8 и 10-байтное (32, 64 и 80-разрядное соответственно).
При этом число преобразуют в стандартный вид.
Простейшим и исторически первым является кодирование целых чисел.
Целые числа представляют в двоичном виде следующим образом:
Диапазон целых чисел, кодируемых одним байтом, определяется числом возможных комбинаций из восьми нулей и единиц. Это число равно 28, т. е. 256.
Если надо закодировать число больше 255, то два байта объединяют вместе и используется 16 бит. Это дает 2 16 , т. е. 65 536 комбинаций.
Еще большие целые числа можно представить с помощью 8 байт.
Более сложное представление существует для вещественных (не целых) чисел, и обработка таких чисел значительно сложнее для компьютера.
В ЭВМ используют три вида чисел:
· с фиксированной точкой (запятой);
· с плавающей точкой (запятой);
У чисел с фиксированной точкой в двоичном формате предполагается строго определенное место точки (запятой).
Другой формой представления чисел является представление их в виде чисел с плавающей точкой (запятой). Например, число A10 = 373 можно представить в виде 0,373 ∙ 10 3 .
Третья форма представления двоичных чисел – двоично-десятичная.
A2-10 = 0011 0111 0101 1001.
Все возможные значения кодируемой информации нумеруются и эти номера кодируются с помощью двоичного кода.
Кодирование символьной и текстовой информации в ЭВМ
Для кодирования символьной или текстовой информации применяют различные специальные системы.
При вводе информации с клавиатуры кодирование происходит при нажатии клавиши, на которой изображен требуемый символ.
При этом в клавиатуре вырабатывается так называемый скан-код, представляющий собой двоичное число, равное порядковому номеру клавиши.
Номер нажатой клавиши никак не связан с формой символа, нанесенного на клавише.
Для кодирования одного символа клавиатуры используют 8 бит – 1 байт (с помощью одного байта можно закодировать 2 8 = 256 символов, т. е. восемь двоиных разрядов могут закодировать 256 различных символов).
Для представления текстовой информации используют таблицу нумерации символов , или таблицу кодировки символов , в которой каждому символу соответствует целое число (порядковый номер).
Так, в таблицах стандарта Unicode и UTF-8/16/32 есть символы практически всех алфавитов (включая устаревшие), а также способы представления этой таблицы в виде переменного числа байт.
Данный стандарт используют в настоящее время.
Кодирование текстовой информации:
256 СИМВОЛОВ = 66 + 52 + 10 + 129
· 33 строчные + 33 прописные = 66 букв русского алфавита
· 26 строчных + 26 прописных = 52 буквы латинского алфавита
· Цифры от 0 до 9 (10 цифр)
· 129 знаков препинания, арифметических знаков и т. д.
Пример . Для записи текста использовался 256-символьный алфавит.
Каждая страница содержит 30 строк по 70 символов в строке.
Пример. Какой объем информации содержат пять страниц текста?
Решение . 256 = 2 1 ( 1 = 8 бит – информационный вес одного символа).
Подсчитываем общее количество символов в тексте
30 ∙ 70 ∙ 5 = 10 500 символов.
Находим объем информации в тексте
10 500 ∙ 8 = 84 000 бит = 10 500 байт = 10,25 Кбайт.
Источник