Способы кодировки звуковой информации

Содержание

Кодирование звуковой информации
Непрерывные и дискретные звуковые сигналы
Частота дискретизации звука
Готовые работы на аналогичную тему
Информационный объем звукового файла
Основные методы кодирования звуковой информации
Примеры форматов звуковых файлов
Кодирование звуковой информации 🎤 Оцифровка звука
Основные определения
Представление и кодирование звуковой информации в компьютере
Расчет объема аудио файла
Форматы аудио
Заключение
Лекция «кодирование звуковой информации»

Кодирование звуковой информации

Вы будете перенаправлены на Автор24

Непрерывные и дискретные звуковые сигналы

Звук представляет собой непрерывный сигнал, а именно звуковую волну с меняющейся амплитудой и частотой. Чем выше амплитуда сигнала, тем он громче воспринимается человеком. Чем больше частота сигнала, тем выше его тон.

Рисунок 1. Амплитуда колебаний звуковых волн

Частота звуковой волны определяется количеством колебаний в одну секунду. Данная величина измеряется в герцах (Гц, Hz).

Ухо человека воспринимает звуки в диапазоне от $20$ Гц до $20$ кГц, данный диапазон называют звуковым. Количество бит, которое при этом отводится на один звуковой сигнал, называют глубиной кодирования звука. В современных звуковых картах обеспечивается $16-$, $32-$ или $64-$битная глубина кодирования звука. В процессе кодирования звуковой информации непрерывный сигнал заменяется дискретным, то есть преобразуется в последовательность электрических импульсов, состоящих из двоичных нулей и единиц.

Частота дискретизации звука

Одной из важных характеристик процесса кодирования звука является частота дискретизации, которая представляет собой количество измерений уровня сигнала за $1$ секунду:

одно измерение в одну секунду соответствует частоте $1$ гигагерц (ГГц);
$1000$ измерений в одну секунду соответствует частоте $1$ килогерц (кГц) .

Частота дискретизации звука — это количество измерений громкости звука за одну секунду.

Количество измерений может находиться в диапазоне от $8$ кГц до $48$ кГц, причем первая величина соответствует частоте радиотрансляции, а вторая — качеству звучания музыкальных носителей.

Чем выше частота и глубина дискретизации звука, тем более качественно будет звучать оцифрованный звук. Самое низкое качество оцифрованного звука, которое соответствует качеству телефонной связи, получается, когда частота дискретизации равна 8000 раз в секунду, глубина дискретизации $8$ битов, что соответствует записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, которое соответствует качеству аудио-CD, достигается, когда частота дискретизации равна $48000$ раз в секунду, глубина дискретизации $16$ битов, что соответствует записи двух звуковых дорожек (режим «стерео»).

Готовые работы на аналогичную тему

Информационный объем звукового файла

Следует отметить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.

Оценим информационный объём моноаудиофайла ($V$), это можно сделать, используя формулу:

$V = N \cdot f \cdot k$,

где $N$ — общая длительность звучания, выражаемая в секундах,

$f$ — частота дискретизации (Гц),

$k$ — глубина кодирования (бит).

Например, если длительность звучания равна $1$ минуте и имеем среднее качество звука, при котором частота дискретизации $24$ кГц, а глубина кодирования $16$ бит, то:

$V=60 \cdot 24000 \cdot 16 \ бит=23040000 \ бит=2880000 \ байт = 2812,5 \ Кбайт=2,75 \ Мбайт.$

При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.

Например, оценим информационный объём цифрового стереозвукового файла, у котрого длительность звучания равна $1$ секунде при среднем качестве звука ($16$ битов, $24000$ измерений в секунду). Для этого глубину кодирования умножим на количество измерений в $1$ секунду и умножить на $2$ (стереозвук):

$V=16 \ бит \cdot 24000 \cdot 2 = 768000 \ бит = 96000 \ байт = 93,75 \ Кбайт.$

Основные методы кодирования звуковой информации

Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых выделяют два основных направления: метод FM и метод Wave-Table.

Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых будет представлять собой правильную синусоиду, а это значит, что его можно описать кодом. Процесс разложения звуковых сигналов в гармонические ряды и их представление в виде дискретных цифровых сигналов происходит в специальных устройствах, которые называют «аналогово-цифровые преобразователи» (АЦП).

Рисунок 2. Преобразование звукового сигнала в дискретный сигнал

На рисунке 2а изображен звуковой сигнал на входе АЦП, а на рисунке 2б изображен уже преобразованный дискретный сигнал на выходе АЦП.

Для обратного преобразования при воспроизведении звука, который представлен в виде числового кода, используют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука изображен на рис. 3. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.

Рисунок 3. Преобразование дискретного сигнала в звуковой сигнал

На рисунке 3а представлен дискретный сигнал, который мы имеем на входе ЦАП, а на рисунке 3б представлен звуковой сигнал на выходе ЦАП.

Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.

Примеры форматов звуковых файлов

Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.

Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.

Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.

Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.

Источник

Кодирование звуковой информации 🎤 Оцифровка звука

Одной из основных задач информатики является представление данных в виде удобном для хранения и передачи. Эти данные могут быть разного типа – звуковые, текстовые, графические и т.д. В этой статье мы расскажем про кодирование звуковой информации. Из этой статьи Вы узнаете основные принципы и определения. Также после прочтения сможете посчитать объем аудио файла. Читайте!

Основные определения

Для того чтобы разобраться в теме надо знать, что представляет собой звуковая информация (звук).

Звук – это непрерывная аналоговая волна, которая распространяется в окружающей среде. В роли среды может выступать воздух, жидкость, твердое тело, электричество и т.д.

Звук, как непрерывную волну, характеризуют две характеристики – частота и амплитуда.

От амплитуды зависит громкость аудио сигнала . Чем выше амплитуда, тем громкость больше.

Частота же характеризует тональность аудиоинформации . Чем больше частота, тем тональность выше. Человеческий слух улавливает волны от 20 Гц до 20 кГц. 1 Гц равен 1 колебанию аудио сигнала в секунду.

Представление и кодирование звуковой информации в компьютере

Для представления и кодирования звука используются специальное оборудование и программы. Рассмотрим весь процесс более подробно.

Аудиоинформация, поступая из окружающей среды (например, по воздуху), преобразуется в электрический сигнал. Для этого используется такое устройство, как микрофон.
После этого звук поступает на АЦП (аналого-цифровой преобразователь), где подвергается оцифровке.
На последнем этапе информация (уже в двоичном виде) кодируется при помощи специальной программы – аудиокодека. На выходе получается файл в специальном формате (например, mp3), который можно хранить, воспроизводить и передавать.

Наибольший интерес представляет процесс оцифровки, также называемым аналого-цифровым преобразованием. В результате него аналоговый сигнал заменяется на цифровой.

Основной принцип аналогово-цифрового преобразования заключается в том, что через равные промежутки времени измеряется амплитуда волны. Также этот процесс называется дискретизация.

Дискретизация – это процесс в результате, которого непрерывная функция представляется в виде дискретной последовательности её значений. Схематично дискретизацию можно представить так:

Дискретизация характеризуется двумя такими величинами, как:

Частота шага по времени;
Шаг квантования.

Первая величина отображает, как часто берутся дискреты и измеряется в Герцах (количество измерений за одну секунду). Частота шага по времени находится по теореме Котельникова.

Шаг квантования характеризуется количеством уровней , до которых округляются величины амплитуды волны.

Количество уровней (ступенек) до которых округляются значения сигнала, зависит от аналого-цифрового преобразователя. На данный момент используются 16, 32 и 64 битные устройства.

Количество бит, затрачиваемое для номеров уровней, называется глубиной кодирования звуковой информации.

Глубина кодирования связано с количеством уровней по формуле:

Где i разрядность АЦП в битах.

Чем чаще берутся дискреты за единицу времени и больше глубина кодирования, тем выше качество звуковых данных на выходе и дороже АЦП.

Расчет объема аудио файла

«Вес» аудио файла зависит от качества оцифровки, чтобы его вычислить, необходимо использовать следующую формулу:

N – длительность звучания в секундах;
K – разрядность АЦП (глубина кодирования) в битах;
F – частота взятия дискрет в герцах;
Z – количество каналов ( 1- моно, 2 — стерео).

Пример: рассчитать объем аудио файла со следующими характеристиками – моно звучание, частота дискретизации 8 кГц, глубина — 8 бит (телефонная связь) и длительностью 60 секунд.

\[V = 60*1*8000*8=3840000 \ бит \]

Форматы аудио

Форматов для хранения аудио много, однако, все они делятся на две большие группы в зависимости от того, какой из методов сжатия используется – LOSELESS или LOSSY.

LOSELESS – метод сжатия без потерь. Качество звуковой информации остается без изменений, однако за него приходится платить большим объемом компьютерной памяти. Используется для хранения музыки и других данных, где важно качество. Форматы, которые основаны на данном методе сжатия: FLAC, APE, TAC, ALAC и другие. На данный момент зарабатывают все большую популярность в связи с увеличением дискового пространства.
LOSSY – сжатие с потерями. При таком методе файл сохраняются с искажениями относительно оригинала. В основном эти искажения не воспринимаются человеческим слухом, а также не замечаются при плохом аудио оборудовании. LOSSY позволяет существенно сэкономить дисковое пространство. На данный момент этот метод сжатия является доминирующим.

Форматы кодирования использующие алгоритмы LOSSY:

MP3 (MPEG-1,2,2.5) – самый популярный аудио формат. Проигрывается на всех аудио и видео системах, по умолчанию поддерживается всеми операционными системами. Искажения заметны на высокоточной дорогостоящей аппаратуре.
AAC – формат, который разрабатывался и позиционировался, как приемник mp3. Не получил широкого распространения. Преимущества перед mp3: большая гибкость кодирования, возможность использовать до 48 звуковых каналов.
HE-AAC (High-Efficiency Advanced Audio Coding) – используется в цифровом радио и телевиденье.

Заключение

Вот Вы и узнали про кодирование звуковой информации в компьютере. Знаете, от чего зависит качество, что такое глубина кодирования, а также про основные форматы для хранения аудио. Можете использовать это сообщение для подготовки краткого конспекта. Также на нашем сайте вы можете почитать другие статьи, касающиеся информатике, например про множества или байты и биты.

Источник

Лекция «кодирование звуковой информации»

При передаче информации происходит кодирование информации, и мы должны договориться о том, как понимать те или иные обозначения. Человек выражает свои мысли словами. Они являются алфавитным представлением информации. На уроках физики при рассмотрении какого-либо явления мы используем формулы. В этом случае говорят о языке алгебры. Формула — это математический код. Существует язык глухонемых, где символы — мимика и жесты; язык музыки, где символы — ноты и т.д. Основу любого языка составляет алфавит — конечный набор различных символов, из которых складывается сообщение. Одна и та же запись может нести разную смысловую нагрузку. Например, набор цифр 251299 может обозначать: массу объекта; длину объекта; расстояние между объектами; номер телефона; дату 25 декабря 1999 года. Эти примеры говорят, что для представления информации могут использоваться разные коды, и поэтому надо знать законы записи этих кодов, т.е. уметь кодировать.

Код — набор условных обозначений для представления информации .

Кодирование — процесс представления информации в виде кода. Кодирование сводится к использованию совокупности символов по строго определенным правилам. При переходе улицы мы встречаемся с кодированием информации в виде сигналов светофора. Водитель передает сигнал с помощью гудка или миганием фар. Кодировать информацию можно устно, письменно, жестами или сигналами любой другой природы. По мере развития техники появились разные способы кодирования информации. Во второй половине XIX века американский изобретатель Морзе изобрел удивительный код, который служит человечеству до сих пор.
В качестве источников информации может выступать человек, техническое устройство, предметы, объекты живой и неживой природы. Получателей сообщения может быть несколько или один.
В процессе обмена информацией мы совершаем две операции: кодирование и декодирование. При кодировании происходит переход от исходной формы представления информации в форму, удобную для хранения, передачи или обработки, а при декодировании — в обратном направлении.

Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. Обычно каждый образ при кодировании (иногда говорят — шифровке) представлении отдельным знаком. Знак — это элемент конечного множества отличных друг от друга элементов. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.

Кодирование звуковой информации — звуковая информация может быть представлена последовательностью элементарных звуков (фонем) и пауз между ними. Каждый звук кодируется и хранится в памяти. Вывод звуков из компьютера осуществляется синтезатором речи, который считывает из памяти хранящийся код звука. Гораздо сложнее преобразовать речь человека в код, т.к. живая речь имеет большое разнообразие оттенков. Каждое произнесенное слово должно сравнивать с предварительно занесенным в память компьютера эталоном, и при их совпадении происходит его распознавание и запись.

Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц). В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки причем для каждого такого участка устанавливается определенная величина амплитуды. Непрерывная зависимость амплитуды сигнала от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек». Глубина кодирования. Каждой «ступеньке» присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука. Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле. Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно: N = 2 I — 2 16 = 65 536.

Качество цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее «лесенка» цифрового звукового сигнала повторяет кривую аналогового сигнала. Частота дискретизации звука — это количество измерений громкости звука за одну секунду.

Качество оцифрованного звука.

Чем больше глубина и частота дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, будет при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим моно). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-СD , будет при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим стерео). Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем высококачественного звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 48 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду и умножить на 2 (стереозвук): 16 бит х 48 000 х 2 = 1 536 000 бит = 192 000 байт = 187,5 Кбайт.

Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши . Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.). Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV, в формате со сжатием МРЗ.

Источник