Способы измерения звуковой информации

Содержание

Измерение и кодирование информации
Единицы информации
Определение количества (объема) информации
Представление информации в компьютере
Кодирование текстовой информации
Кодирование графической информации
Кодирование звуковой информации
Представление чисел в памяти компьютера
Обработка звука
Форматы звуковых файлов

Измерение и кодирование информации

Единицы информации

Бит — минимальная единица информации, представляющая собой наименьшую «порцию» памяти — 1 двоичный разряд. Бит обозначает количество информации, необходимое для различения двух равновероятных событий — значение размером в 1 бит представляет собой сообщение, уменьшающее неопределенность знания в два раза.

Байт — основная единица информации.

1 байт = 8 бит; 1 Кбайт = 2 10 байт = 1024 байт; 1 Мбайт = 2 10 Кбайт = 1024 Кбайт; 1 Гбайт = 2 10 Мбайт = 1024 Мбайт

Определение количества (объема) информации

Вероятностный подход к измерению количества информации — рассматривает информацию с точки зрения повышения определенности знания в результате ее получения:

Количество (объем) получаемой информации (I) при известном количестве возможных событий (N):

Для равновероятных событий: I = log₂N

Для разновероятных событий: (формула Шеннона),

I — кол-во информации (бит), N — кол-во возможных событий, Pi — вероятность i-го события, i = 1, 2, …, N.

Алфавитный подход к измерению количества информации — рассматривает информацию с точки зрения ее представления как некоторой последовательности «знаков» (букв, цифр, кодов цвета точек изображения и т. п.). Алфавит знаковой системы — полный набор «знаков», используемых для формирования сообщений в данной знаковой системе. Объем информации, который несет каждый «знак» (информационная емкость «знака», объем занимаемой памяти): I = log2N, где N — кол-во знаков в алфавите.

Количество (объем) информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно: Информационная емкость «знака» * Количество знаков в сообщении.

Представление информации в компьютере

Все виды информации в компьютере обрабатываются в двоично-кодированном виде — т. е. в виде последовательности нулей и единиц, на физическом уровне представляемой в форме электрических импульсов: 1 — есть импульс, 0 — нет импульса.

Логические последовательности нулей и единиц представляют собой машинный язык.

Кодирование текстовой информации

Принцип кодирования: каждому символу ставится в соответствие определенный уникальный числовой (двоичный) код. Таблица, устанавливающая такое соответствие, называется таблицей кодировки символов.

Количество различных символов (N), которые можно закодировать с помощью какой-либо таблицы кодировки, определяется числом двоичных разрядов (k), отводимых под кодирование одного символа: N=2 k . Наибольшее распространение получило 8-разрядное кодирование (на кодирование одного символа отводится 8 бит = 1 байт), позволяющее закодировать N=2 8 =256 различных символов.

В различных кодировках: коды от 0 до 32 — соответствуют управляющим клавишам (Enter, Esc и т. п.); от 33 до 127 — латинским буквам, цифрам, знакам арифметическим операций и знакам препинания; от 128 до 255 (расширенная часть таблицы кодировки) — для символов национальных алфавитов (в т. ч. кириллицы).

Наиболее распространенные 8-разрядные таблицы кодировок: ASCII (принята в качестве стандарта в MS-DOS), Windows-1251 (CP1251), КОИ-8, ISO.

UNICODE — 16-разрядная кодировка символов, позволяющая закодировать 2 16 = 65536 различных символов.

Кодирование графической информации

Минимальный объект кодирования растрового графического изображения — пиксель.

В основе кодирования цветных графических изображений — принцип декомпозиции цветов — т. е. разложение произвольного цвета на основные составляющие (например, по системе RGB: красный (Red), зеленый (Green) и синий (Blue)).

Глубина кодирования (глубина цвета) — количество бит (двоичных разрядов), используемых для кодирования цвета одной точки. От глубины цвета (k) зависит количество отображаемых цветов (N) — т. е. количество возможных состояний одной точки изображения: N=2 k .

Наиболее распространенные значения глубины цвета: 4, 8, 16, 24 бита на точку.

Разрешение — количество точек (пикселей) изображения, приходящихся на единицу длины. От разрешения зависит размер пикселя.

Наиболее частот используемые экранные разрешения: 640×480, 800×600, 1024×768, 1280×1024 точек.

Глубина кодирования и разрешение влияют на качество кодирования изображения.

Объем видеопамяти (V), необходимый для формирования графического изображения на экране: V = M * N * k, где M — кол-во точек изображения по горизонтали, N — кол-во точек изображения по вертикали, k — глубина цвета (бит).

Кодирование звуковой информации

Для кодирования непрерывного (аналогового) звукового сигнала производится его дискретизация по времени (временная дискретизация, оцифровка) — разбиение непрерывной звуковой волны на отдельные короткие временные участки с измерением для каждого из них интенсивности звукового сигнала (величины амплитуды). Это выполняется аналогово-цифровым преобразователем (АЦП). При воспроизведении закодированного (оцифрованного) звука выполняется обратное преобразование цифро-аналоговым преобразователем (ЦАП) с последующим сглаживанием ступенчатого сигнала через аналоговый фильтр.

Глубина кодирования звука — количество бит (двоичных разрядов), используемых для кодирования уровня интенсивности (амплитуды) одного звукового сигнала. От глубины звука (k) зависит количество отражаемых в кодировании различных уровней звукового сигнала (N): N=2 k .

Частота дискретизации — количество измерений уровня (амплитуды, интенсивности) звукового сигнала в единицу времени. Количество измерений в секунду может лежать в диапазоне от 8000 до 48000, т. е. диапазон частоты дискретизации аналогового звукового сигнала: от 8 до 48 кГц.

Глубина кодирования и частота дискретизации влияют на качество кодирования звука.

Информационный объем моноаудиофайла (V): V = N * f * k, где N — общая длительность звучания (секунд), f — частота дискретизации (Гц), k — глубина кодирования (бит).

Представление чисел в памяти компьютера

Традиционная форма записи чисел, используемая в повседневной жизни, называется естественной формой записи чисел. Существует также экспоненциальная форма представления чисел: A_q = m * q p , где q — основание системы счисления, m — мантисса числа, p- порядок числа. Для 10-ой с/с: A₁₀ = m * 10 p , для 2-ой с/с: A₂ = m * 2 p .

В компьютере числа представляются в одной из двух форм:

1. В форме с фиксированной точкой — соответствует естественной двоичной форме записи чисел с фиксированной разрядностью и указанием знака числа. В современных ЭВМ в такой форме представляются только целые числа.

2. В форме с плавающей точкой — соответствует экспоненциальной двоичной форме записи чисел с фиксированной разрядностью мантиссы и порядка и указанием знаков мантиссы и порядка. В компьютере числа в плавающей форме записываются в нормализованном виде (когда первая цифра мантиссы числа не равна нулю).

Источник

Обработка звука

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.

Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

Высота звука определяется частотой колебаний вибрирующего тела.
Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
Длительность звука — продолжительность колебаний.
Тембром звука называется окраска звука.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.

Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.

Кодирование звуковой информации

Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.

Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Качество кодирования звуковой информации зависит от :

1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2)глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

Форматы звуковых файлов

РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали — это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga — одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

MID. Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.

МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для «обычных немузыкальных» людей потери не ощутимы явно.

VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF — процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

Источник