Обработка звука
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .
Аналоговый и дискретный способы представления звука
Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.
При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.
При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.
Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).
Восприятие звука человеком
Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.
Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.
В аналоговой форме звук представляет собой волну, которая характеризуется:
- Высота звука определяется частотой колебаний вибрирующего тела.
- Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
- Длительность звука — продолжительность колебаний.
- Тембром звука называется окраска звука.
Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с
Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).
- Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
- Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.
Кодирование звуковой информации
Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
- В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
- Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.
Качество кодирования звуковой информации зависит от :
1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.
2)глубиной кодирования, т.е. количества уровней сигнала.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.
Форматы звуковых файлов
РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.
WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали — это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.
RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.
IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga — одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.
MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.
AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.
MID. Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.
МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для «обычных немузыкальных» людей потери не ощутимы явно.
VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF — процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.
RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.
Источник
Урок 16
Представление нечисловой информации в компьютере
Представление звуковой информации в компьютереЗвук представляет собой непрерывный сигнал — звуковую волну с меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека. Чем больше частота сигнала, тем выше тон. Частота звуковой волны выражается числом колебаний в секунду и измеряется в герцах (Гц, Hz). Человеческое ухо способно воспринимать звуки в диапазоне от 20 Гц до 20 кГц, который называют звуковым. Количество бит, отводимое на один звуковой сигнал, называют глубиной кодирования звука. Современные звуковые карты обеспечивают 16-, 32- или 64-битную глубину кодирования звука. При кодировании звуковой информации непрерывный сигнал заменяется дискретным, то есть превращается в последовательность электрических импульсов (двоичных нулей и единиц). Важной характеристикой при кодировании звука является частота дискретизации — количество измерений уровней сигнала за 1 секунду: — 1 (одно) измерение в секунду соответствует частоте 1 Гц; Количество измерений может лежать в диапазоне от 8 кГц до 48 кГц (от частоты радиотрансляции до частоты, соответствующей качеству звучания музыкальных носителей). Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых можно выделить два основных направления: метод FM и метод Wave-Table. Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, и следовательно, может быть описан кодом. Разложение звуковых сигналов в гармонические ряды и представление в виде дискретных цифровых сигналов (рис. 1.5) выполняют специальные устройства — аналогово-цифровые преобразователи (АЦП). Рис. 1.5. Преобразование звукового сигнала в дискретный сигнал: Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука представлен на рис. 1.6. Данный метод кодирования не дает хорошего качества звучания, но обеспечивает компактный код. Рис 1.6. Преобразование дискретного сигнала в звуковой сигнал: Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д.. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов. Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ. Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза. Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV. Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования. Средства и технологии обработки звуковой информацииКодирование аудиоинформацииТак как компьютер работает с числами, звуки и музыка должны быть представлены в числовом виде, или, как принято говорить, закодированы. Произвольная аудиоинформация при кодировании занимает много места, поэтому часто используют сжатые аудиоформаты. Музыка занимает меньше места, так как хорошо формализуется – ее можно записать с помощью нот. Звук представляет собой волну, распространяющуюся в атмосфере, и воспринимаемую человеком с помощью органов слуха. Громкость звука – это его кажущаяся сила. Измеряется громкость в децибелах (дБ). Громкость обычного разговора около 50 дБ, шум на улице часто превышает 70 дБ, а громкость взлетающего самолета составляет 120 дБ. Порог чувствительности человеческого уха около 20 дБ. Характеризуется звуковая волна изменением во времени частоты и амплитуды сигнала. Графически звуковая волна описывается кривой, задающей зависимость амплитуды от времени. Частота основных колебаний определяет высоту звука. Но звуки одной частоты могут иметь разный тембр. Чтобы закодировать звук, необходимо измерять амплитуду сигнала через определенные промежутки времени. На каждом временном отрезке определяется средняя амплитуда сигнала. Графически такое преобразование описывается множеством столбиков. При восстановлении исходной кривой ее вид будет искажен. Искажения тем больше, чем больше ширина столбиков, то есть чем реже определяется текущая амплитуда. Чем промежутки времени меньше, тем выше будет качество закодированного звука. Частота, с которой определяется амплитуда сигнала, называется частотой дискретизации. Амплитуда сигнала, определенная в каждый момент времени, также должна быть представлена в числовом виде. В простейшем случае можно использовать один бит – есть звук или его нет. Но на практике такое кодирование не имеет смысла. Минимально для кодирования амплитуды сигнала отводятся восемь бит – один байт, что позволяет описать двести пятьдесят шесть уровней громкости. Качество звука при этом получается не слишком высокое. Если и частота дискретизации невелика, то при воспроизведении будут присутствовать сильные искажения. Значительно лучшее качество получается при использовании двух байт, что позволяет задать более шестидесяти пяти тысяч разных значений амплитуды. В большинстве случаев двух байт достаточно для получения высококачественной записи звука, хотя иногда применяют 24 бита – три байта для кодирования амплитуды сигнала. Для кодирования звуков следует использовать частоту вдвое большую, чем частота кодируемого звука. Объяснение этому довольно простое. Звуковая волна состоит из двух полупериодов: положительного и отрицательного. Поэтому для ее имитации необходимо иметь хотя бы по одной выборке на каждом из полупериодов. Так как человек воспринимает звуки в диапазоне частот от 20 до 20000 Гц, то для качественного кодирования необходимо использовать частоту вдвое большую, чем 20000, то есть 40000 Гц. Тогда сохраненные выборки позволят воспроизводить звуковую волну внутри диапазона, воспринимаемого человеческим ухом. Для качественного кодирования звука принято иметь некоторый запас, поэтому при цифровой звукозаписи используется частота дискретизации 44100 Гц и 48000 Гц. Это означает, что за каждую секунду звукозаписи в цифровом виде записывается более 44000 единиц информации, последовательность которых моделирует звук длительностью в одну секунду. Для того чтобы записать стереозвук, следует одновременно кодировать два независимых канала звука. При этом чтобы получить хорошее качество, нужно использовать два байта для кодирования и частоту дискретизации 44100 Гц для каждого из каналов. Именно так кодируется звук на компакт-дисках. При этом одна минута закодированного звука займет более 10 Мб. В некоторых случаях можно обойтись более низким качеством, сравнимым с качеством записи диктофона. Для того чтобы закодировать голос, не предъявляя повышенных требований к качеству звучания, можно использовать один байт при кодировании и один монофонический канал. Частоту дискретизации также можно понизить. Чтобы разбирать отдельные слова и понимать их смысл, достаточно частоты дискретизации 8000 Гц. С такими параметрами минута закодированного звука займет менее 480 Кб. Для повышения качества кодирования используют более высокие частоты дискретизации, до 96000 Гц, однако такое качество требуется исключительно при работе в профессиональных звукозаписывающих студиях. Современные компьютеры часто используются при создании и воспроизведении музыки. Музыкальное произведение можно закодировать как любой другой звук, однако это займет много места. Кроме того, возникнут трудности при изменении партий отдельных инструментов. Проще указать инструмент и задать, какую ноту и как долго он должен играть. Для воспроизведения музыки компьютер синтезирует разнообразные звуки, которые издают музыкальные инструменты. В компьютерной музыке используется аббревиатура MIDI, которая расшифровывается как Musical Instrument Digital Interface (Цифровой интерфейс музыкальных инструментов). Имеется стандарт, описывающий основные используемые инструменты, – GM (General MIDI – единый MIDI). В стандарте описаны пятнадцать групп мелодических инструментов и одна группа ударных инструментов. Мелодический набор состоит из пианино, органов, гитар, струнных, духовых и тому подобных инструментов. За всеми инструментами закреплены номера, например, нулевой номер имеет акустический рояль. Кроме GM используются стандарты GS (General Synth – единый синтез), XG (Extended General – единый расширенный), GM2 (General MIDI 2). Все эти стандарты не заменяют собой GM, а лишь дополняют его новыми инструментами и дополнительными параметрами звучания. Несмотря на то, что инструменты и тембры стандартизированы в GM, а MIDI-файл содержит только номера инструментов и тембров, этот файл по-разному будет воспроизводиться на разных звуковых картах. Это объясняется несколькими причинами. Так, в стандарте описаны только названия инструментов и тембров. Такие параметры звука, как громкость, окраска и другие не определены и выбираются производителями звуковых карт произвольно. Кроме того, на качество воспроизведения звука сильно сказывается метод, которым этот звук воспроизводится. Применяют два основных метода синтеза звуков. Более простой метод называется частотным синтезом (FM-синтез). Для каждой ноты каждого инструмента определена частота и амплитуда звука, и звуковая плата компьютера синтезирует звук. Однако при этом синтезированные звуки получаются не слишком похожими на звучание реальных инструментов. В современных звуковых платах частотный синтез не используется. Значительно лучшее качество звучания дают волновые таблицы (Wave Table). В таблице записаны закодированные звуки реальных инструментов. При этом используется метод кодирования амплитуды звукового сигнала через короткие промежутки времени. Например, если требуется воспроизвести удар по тарелке, звуковая плата проигрывает небольшой фрагмент, записанный в определенном месте таблицы. Фрагменты называют сэмплами (samples). Инструменты с малой длительностью звучания обычно записываются полностью, а для остальных может записываться лишь начало, конец звука и небольшая средняя часть, которая затем проигрывается в цикле в течение нужного времени. Такое кодирование обеспечивает предельную реалистичность звучания классических инструментов и простоту получения звука. Однако волновые таблицы могут занимать много места в памяти. Так как музыка, представленная в цифровом виде, не требует преобразований, к компьютеру напрямую можно подключить цифровые синтезаторы. Наигрывая мелодию на синтезаторе, в компьютер вводится последовательность нот. Также синтезаторы позволяют проигрывать композиции, созданные на компьютере. Загрузив в синтезатор сэмплы из волновой таблицы, можно извлекать самые необычные звуки при нажатии клавиш. В последнее время стало модным караоке, и в компьютере стали кодировать музыку вместе с текстом. Фактически караоке является вариантом MIDI. Музыка закодирована обычным способом, но дополнительно добавлен текст, заменивший описание одного из инструментов. Хотя частота дискретизации при кодировании звукового сигнала по компьютерным меркам не очень велика, объем получившихся цифровых данных достаточно большой. Чтобы уменьшить объем, занимаемый цифровыми аудиоданными, применяют различные методы сжатия информации, в частности алгоритмы MPEG. Например, применение сжатия по алгоритму MPEG-1 Layer 3 (МР3) позволяет уменьшить объем данных более чем в десять раз, при сохранении качества звука, близкого к audio-CD. Наряду с МР3 применяется формат сжатия по стандарту WMA (Windows Media Audio), поддерживаемый последними версиями операционных систем Windows. В обоих стандартах используется метод сжатия по психоакустической модели, то есть из исходного звукового сигнала удаляется информация, малозаметная на слух, после чего сигнал сжимается обычными методами, которые реализованы в программах–архиваторах. При таком методе кодирования неизбежно искажение исходного сигнала, а значит – потеря качества. Степень потери качества можно регулировать, однако при увеличении качества неизбежно растет объем информации. Основным параметром, характеризующим качество записи, является скорость потока данных, поступающих для декодирования. Часто этот параметр называют битрейтом (bitrate – частота битов). Битрейт измеряется в килобитах в секунду и может составлять до 320 Кбит/с. В большинстве случаев вполне хватает 192 или даже 128 битрейт. Битрейт ниже 48 Кбит/с существенно ухудшит качество и его не следует применять для записи музыки. Для записи речи можно использовать меньший битрейт. Качественную диктофонную запись можно получить при битрейте равном 8 Кбит/с. Искажения при кодировании в форматах MP3 и WMA во многом зависят от характера музыки. Симфоническая музыка требует большего битрейта, а танцевальная – меньшего. Наиболее популярным битрейтом при кодировании музыкальных композиций считается битрейт 128 Кбит/с, дающий хорошее качество записи и позволяющий сжимать исходную информацию более чем в десять раз. Для хранения произвольных звуковых данных чаще всего используются файлы формата wav. В этом формате может храниться моно- или стереозвук, закодированный одним или двумя байтами и с различной частотой дискретизации. Файлы этого формата могут быть сжаты разными способами для достижения меньшего размера, а могут оставаться и несжатыми. Музыкальные файлы используют формат mid, так как цифровой музыкальный интерфейс и способ кодирования музыкальной информации называется MIDI. Сжатые файлы могут иметь расширение wav, а могут расширением указывать на используемый способ сжатия – mp3 или wma. Есть и несколько других форматов звуковых файлов, но они применяются значительно реже. Звуковое оборудование и программыЗа воспроизведение и запись звука в компьютерах отвечают специальные звуковые адаптеры. Звуковой адаптер содержит еще один специализированный процессор, тем самым освобождая основной процессор от функций по управлению воспроизведением звука. С помощью звукового адаптера можно записывать звуковую информацию, воспроизводить речь и музыку. Звуковой адаптер Современные звуковые платы позволяют производить обработку звука, монтаж музыкальных композиций. Основным направлением развития современных звуковых плат является поддержка объемного звука. В этом случае появляется возможность позиционирования источников звука в пространстве. Подавляющее большинство современных компьютеров оборудовано звуковой картой. Хорошие звуковые платы Sound Blaster Audigy различных версий выпускает фирма Creative. Вместе с тем в настоящее время многие материнские платы поддерживают качественный шестиканальный звук. Для того чтобы создавать собственные музыкальные произведения может понадобиться специальная клавиатура, подключаемая к интерфейсу MIDI. Музыкальные клавиатуры, подключаемые к звуковой карте, различаются количеством октав (обычно от трех до семи), а также количеством клавиш и их размером. Наиболее известными производителями являются фирмы Korg, Roland, Yamaha. Неплохие любительские клавиатуры выпускает фирма Casio. Музыкальная клавиатура Для качественной записи голоса нужно использовать соответствующие микрофоны. Простые компьютерные микрофоны не обеспечивают высокое качество звука. Кроме того, микрофонный вход большинства звуковых плат также не обладают хорошим качеством. Поэтому рекомендуется использовать микрофонный усилитель, который подключается к линейному входу звуковой платы. Микрофонный усилитель обеспечит подключение двух микрофонов, что позволит записывать стереофонический звук. Микрофон В последнее время широкое распространение получили миниатюрные цифровые проигрыватели, хранящие музыку в формате МР3. Музыка с компьютера записывается в память такого устройства, после чего ее можно прослушать в любом месте через наушники. Портативный плейер В качестве дополнительного источника звука для компьютера может рассматриваться компьютерный радиоприемник. Он может быть реализован в качестве дополнительной платы, а может подключаться к порту USB. Радиоприемник Конечно, работа со звуком на компьютере немыслима без специальных программ. Простейшие программы для работы со звуком включены в состав всех версий Windows. С их помощью можно настроить громкость разных источников звука, установить чувствительность микрофона и линейного входа. Кроме того, можно записать небольшой звуковой фрагмент, выполнить с ним простые преобразования и записать результат в файл. Также в Windows включены средства проигрывания компакт-дисков и мультимедийных файлов, записи музыки на цифровые плееры, прослушивания музыки из Интернета. При использовании музыкальной клавиатуры требуется работа со звуком в реальном масштабе времени. Наиболее мощной такой программой является Cakewalk Home Studio, но можно обойтись и более простыми программами. Для обработки звуков следует использовать звуковой редактор. Лучшими звуковыми редакторами являются программы Sound Forge и WaveLab. Для многоканального монтажа применяется редактор Cool Edit. Для создания и редактирования музыки, а также для добавления вокала к музыке, применяются программы, называемые секвенсорами MIDI и аудио. Лучшими программами этого класса являются Cakewalk Sonar и Cubase VST. Sound Forge Пение караоке стало в последнее время достаточно популярным. Существуют несколько программ для создания файлов караоке и для их воспроизведения. Достаточно удобна программа Karaoke GALAXY Maker, позволяющая создавать караоке. Для воспроизведения таких файлов используют программы Karaoke GALAXY Player или vanBasco’s Karaoke Player. Источник |