Способ кодирования речи человека специальными символами буквами называется

§2 Представление информации, языки, кодирование

Главная > Документ

Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

§2 Представление информации, языки, кодирование. ( 10 кл. )

Из базового курса вам известно:

Историческое развитие человека, формирование человеческого общес­тва связано с развитием речи, с появлением и распространением язы­ков. Язык — это знаковая система для представления и передачи ин­формации. В его состав входит алфавит, лексика (слова), грамматика, пунктуация (правила для записи слов и предложений).

Люди сохраняют свои знания в записях на различных носителях. Носитель информации – физическая среда, содержащая образы сообщений. Сообщение – часть информации. Благодаря этому знания передаются не только в пространстве, но и во времени — от поколения к поколению.

Языки бывают естественные, например русский, китайский, англий­ский, и формальные (искусственно созданные человеком для какой-то науки или с определённой целью), например математическая символика, нотная грамота, языки программирования. В формальных языках каждое слово имеет единственное значение и смысл. В них нет синонимов, омонимов.

Письменность и кодирование информации

Под словом «кодирование» понимают процесс представления инфор­мации в форме, удобной для ее хранения и/или передачи. Кодирование – это перевод информации с одного языка на другой (запись в другой системе символов, в другом алфавите). Следовательно, запись текста на естественном языке можно рассматривать как способ кодирова­ния речи с помощью графических элементов (букв, иероглифов). Записан­ный текст является кодом, заключающим в себе содержание речи, т. е. информацию.

Процесс чтения текста — это обратный по отношению к письму про­цесс, при котором письменный текст преобразуется в устную речь. Чтение можно назвать декодированием письменного текста.

Обычно кодированием называют перевод информации с «человеческого» языка на формальный, например, в двоичный код, а декодированием – обратный переход.

Цели и способы кодирования

А теперь обратим внимание на то, что может существовать много спо­собов кодирования одного и того же текста на одном и том же языке. Один символ исходного сообщения может заменяться одним символом нового кода или несколькими символами, а может быть и наоборот – несколько символов исходного сообщения заменяются одним символом в новом коде.

На­пример, русский текст мы привыкли записывать с помощью русского ал­фавита. Но то же самое можно сделать, используя латинский алфавит. Иногда так приходится поступать, отправляя SMS по мобильному телефо­ну, на котором нет русских букв, или электронное письмо на русском язы­ке за границу, если у адресата нет русифицированного программного обес­печения. Например, фразу «Здравствуй, дорогой Саша!» приходится пи­сать так: «Zdravstvui, dorogoi Sasha!». Такое написание текста называю «транслит».

Существует множество способов кодирования. Например, стеногра­фия — быстрый способ записи устной речи. Ею владеют лишь немногие специально обученные люди — стенографисты. Они успевают записывать текст синхронно с речью выступающего человека. В стенограмме один значок обозначает целое слово или сочетание букв. Расшифровать (декодировать) стенограм­му может только сам стенографист.

Посмотрите на текст стенограммы на рис. 1.2. Там написано следующее: «Гово­рить умеют все люди на свете. Даже у са­мых примитивных племен есть речь. Язык — это нечто всеобщее и самое чело­веческое, что есть на свете».

Китайские иероглифы обозначают целые слова и понятия. Можно придумать и другие способы ко­дирования.

Приведенные примеры иллюстрируют следующее важное правило: для кодирования одной и той же информации могут быть использованы раз­ные способы; их выбор зависит от ряда обстоятельств: цели кодирования, условий , имеющихся средств . Если надо записать текст в темпе речи, делаем это с помощью стенографии; если надо передать текст за границу, пользуемся транслитом; если надо представить текст в виде, по­нятном для грамотного русского человека, записываем его по правилам грамматики русского языка.

Читайте также:  Лучший способ выучить английский алфавит

Еще одно важное обстоятельство: выбор способа кодирования информа­ции может быть связан с предполагаемым способом ее обработки. Обсу­дим это на примере представления чисел — количественной информации. Используя русский алфавит, можно записать число «тридцать пять». Используя же алфавит арабской десятичной системы счисления, пишем: 35. Пусть вам надо произвести вычисления. Скажите, какая запись удоб­нее для выполнения расчетов: «тридцать пять умножить на сто двадцать семь» или «35 х 127»? Очевидно, что для перемножения многозначных чисел вы будете пользоваться второй записью.

Заметим, что две эти записи, эквивалентные по смыслу, используют разные языки: первая — естественный русский язык, вторая — формаль­ный язык математики, не имеющий национальной принадлежности. Пе­реход от представления на естественном языке к представлению на фор­мальном языке можно также рассматривать как кодирование. Человеку удобно использовать для кодирования чисел десятичную систему счисле­ния, а компьютеру — двоичную систему.

Широко используемыми в информатике формальными языками явля­ются языки программирования.

В некоторых случаях возникает потребность засекречивания текста со­общения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного досту­па. В таком случае секретный текст шифруется . В давние времена шифро­вание называлось тайнописью. Между процессами кодирования и шифрования очень тонкая грань. Действия производятся одинаковые, но цель разная. Кодируют информацию для удобной работы с ней, а шифруют, чтобы скрыть ,спрятать её смысл от посторонних. Шифрование представляет собой процесс превращения открытого текста в зашифрованный, а дешифрование — процесс обратного преобразования, при котором восстанавливается ис­ходный текст. Шифрование — это тоже кодирование, но с засекреченным методом (ключом), известным только источнику и адресату. Методами шифрова­ния занимается наука криптография .

История технических способов кодирования информации

С появлением технических средств хранения и передачи информации возникли новые идеи и приемы кодирования. Первым техническим сред­ством передачи информации на расстояние стал теле­граф, изобретенный в 1837 году американцем Сэмюэ­лем Морзе.

Телеграфное сообщение — это последова­тельность электрических сигналов, передаваемая от одного телеграфного аппарата по проводам к другому телеграфному аппарату. Эти технические обстоя­тельства привели Морзе к идее использования всего двух видов сигналов — короткого и длинного — для кодирования сообщения, передаваемого по линиям телеграфной связи.

Такой способ кодирования получил название азбу­ки Морзе. В ней каждая буква алфавита кодируется последовательностью коротких сигналов (точек) и длинных сигналов (тире). Буквы отделяются друг от друга паузами — отсутствием сигналов.

В таблице показана азбука Морзе применительно к русско­му и английскому алфавиту. Специальные знаки препинания в России обычно запи­сывают словами: «тчк» — точка, «зпт» — запятая и т. п.

Источник

Способ кодирования речи человека специальными символами буквами называется

Кодирование текстовой информации

Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества — письменность и арифметика — есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Читайте также:  Способ нарезки яблок для сушки

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц — машинным языком.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange — Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Читайте также:  Способ ориентироваться по звездам

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Символ 32 — пробел, т.е. пустая позиция в тексте.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать — на экране монитора видна какая-то «абракадабра». Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Источник

Оцените статью
Разные способы