Механизм восприятия и передачи звуковой информации
Передача звука происходит следующим образом:
1. Звук достигает барабанной перепонки и вызывает ее колебания.
2. Посредством слуховых косточек эти колебания усиливаются и воздействуют на мембрану овального (круглого) окна.
3. Колебания мембраны овального окна сообщаются перелимфе нижней лестницы, а следовательно, и основной мембране.
4. Смещения основной мембраны передаются на волоски рецепторных клеток, которые при взаимодействии с покровной мембраной деформируются. Механическая деформация волосковых клеток изменяет ионную проницаемость их мембран, уменьшается величина мембранного потенциала (развивается деполяризация). Это приводит к возникновению генераторного потенциала. Чем сильнее раздражение, тем больше амплитуда генераторного потенциала, тем выше частота нервных импульсов.
5. Возникшие нервные импульсы распространяются по нейронам слуховой сенсорной системы: первые нейроны расположены в спиральном узле, вторые — в продолговатом мозге, третьи — в зрительных буграх промежуточного мозга, четвертые — в верхней части височной доли коры больших полушарий головного мозга, где происходит высший анализ воспринимаемых звуков.
Способность воспринимать звуки разной частоты основана на процессах, происходящих в улитке слухового аппарата. Звуки разной частоты вызывают колебания перелимфы и эндолимфы. Эти колебания приводят в движение строго определенные участки основной мембраны, а вместе с ней и соответствующие рецепторы — волосковые клетки. Так при высокой частоте звуков возбуждаются слуховые рецепторы, расположенные ближе к началу (основанию) улитки, а при низкой частоте — к концу улитки.
Электрические явления в улитке
При отведении электрических потенциалов от разных частей улитки обнаружено пять различных феноменов: два из них — мембранный потенциал слуховой рецепторной клетки и потенциал эндолимфы — не обусловлены действием звука; три электрических явления — микрофонный потенциал улитки, суммационный потенциал и потенциалы слухового нерва — возникают под влиянием звуковых раздражений. Если ввести в улитку электроды, соединить их с динамиком через усилитель и подействовать на ухо звуком, то динамик точно воспроизведет этот звук. Описываемое явление называют микрофонным эффектом улитки, а регистрируемый электрический потенциал назван кохлеарным микрофонным потенциалом. Доказано, что он генерируется на мембране волосковой клетки в результате деформации волосков. Частота микрофонных потенциалов соответствует частоте звуковых колебаний, а амплитуда потенциалов в определенных границах пропорциональна интенсивности звука.
В ответ на сильные звуки большой частоты (высокие тона) отмечают стойкий сдвиг исходной разности потенциалов. Это явление получило название суммационного потенциала. Различают положительный и отрицательный суммационные потенциалы. Их величины пропорциональны интенсивности звукового давления и силе прижатия волосков рецепторных клеток к покровной мембране.
Микрофонный и суммационный потенциалы рассматривают как суммарные рецепторные потенциалы волосковых клеток. Имеются указания, что отрицательный суммационный потенциал генерируется внутренними, а микрофонный и положительный суммационные потенциалы — наружными волосковыми клетками. И наконец, в результате возбуждения рецепторов происходит генерация импульсного сигнала в волокнах слухового нерва
Иннервация волосковых клеток спирального органа
Сигналы от волосковых клеток поступают в мозг по 32 000 афферентных нервных волокон, входящих в состав улитковой ветви VIII пары черепных нервов. Они являются дендритами ганглиозных нервных клеток спирального ганглия. Около* 90 % волокон идет от внутренних волосковых клеток и лишь 10% — от наружных. Сигналы от каждой внутренней волосковой клетки поступают в несколько волокон, в то время как сигналы от нескольких наружных волосковых клеток конвергируют на одном волокне. Помимо афферентных волокон, спиральный орган иннервируется эфферентными волокнами, идущими из ядер верхне-оливарного комплекса (оливо-кохлеарные волокна). При этом эфферентные волокна, приходящие к внутренним волосковым клеткам, оканчиваются не на самих этих клетках, а на афферентных волокнах. Считают, что они оказывают тормозное воздействие на передачу слухового сигнала, способствуя обострению частотного разрешения. Эфферентные волокна, приходящие к наружным волосковым клеткам, воздействуют на них непосредственно и, возможно, регулируют их длину и тем самым управляют чувствительностью как их самих, так и внутренних волосковых клеток.
Электрическая активность путей и центров слуховой системы
Даже в тишине по волокнам слухового нерва следуют спонтанные импульсы со сравнительно высокой частотой (до 100 в секунду). При звуковом раздражении частота импульсации в волокнах нарастает и остается повышенной в течение всего времени, пока действует звук. Степень учащения разрядов различна у разных волокон и обусловлена интенсивностью и частотой звукового воздействия. В центральных отделах слуховой системы много нейронов, возбуждение которых длится в течение всего времени действия звука. На низких уровнях слуховой системы сравнительно немного нейронов, отвечающих лишь на включение и выключение звука (нейроны on-, off- и on-off- типа). На высоких уровнях системы процент таких нейронов возрастает. В слуховой зоне коры большого мозга много нейронов, вызванные разряды которых длятся десятки секунд после прекращения звука.
На каждом из уровней слуховой системы с помощью макроэлектродов могут быть зарегистрированы характерные по форме вызванные потенциалы, отражающие синхронизированные реакции (ВПСП, ТПСП и импульсные разряды) больших групп нейронов и волокон.
Слуховые функции
Анализ частоты звука (высоты тона)
Звуковые колебания разной частоты вовлекают в колебательный процесс основную мембрану на всем ее протяжении неодинаково. Локализация амплитудного максимума бегущей волны на основной мембране зависит от частоты звука. Таким образом, в процесс возбуждения при действии звуков разной частоты вовлекаются разные рецепторные клетки спирального органа. В улитке сочетаются два типа кодирования, или механизма различения, высоты тонов: пространственный и временной. Пространственное кодирование основано на определенном расположении возбужденных рецепторов на основной мембране. Однако при действии низких и средних тонов, кроме пространственного, осуществляется и временное кодирование: информация передается по определенным волокнам слухового нерва в виде импульсов, частота следования которых повторяет частоту звуковых колебаний. О настройке отдельных нейронов на всех уровнях слуховой системы на определенную частоту звука свидетельствует наличие у каждого из них специфической частотно-пороговой характеристики — зависимости пороговой интенсивности звука, необходимой для возбуждения нейрона, от частоты звуковых колебаний. Для каждого нейрона существует оптимальная, или характеристическая, частота звука, на которую порог реакции нейрона минимален, а в обе стороны по диапазону частот от этого оптимума порог резко возрастает. При надпороговых звуках характеристическая частота дает и наибольшую частоту разрядов нейрона. Таким образом, каждый нейрон настроен на выделение из всей совокупности звуков лишь определенного, достаточно узкого участка частотного диапазона. Частотно-пороговые кривые разных клеток не совпадают, а в совокупности перекрывают весь частотный диапазон слышимых звуков, обеспечивая полноценное их восприятие.
Источник
Обработка звука
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .
Аналоговый и дискретный способы представления звука
Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.
При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.
При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.
Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).
Восприятие звука человеком
Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.
Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.
В аналоговой форме звук представляет собой волну, которая характеризуется:
- Высота звука определяется частотой колебаний вибрирующего тела.
- Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
- Длительность звука — продолжительность колебаний.
- Тембром звука называется окраска звука.
Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с
Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).
- Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
- Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.
Кодирование звуковой информации
Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
- В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
- Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.
Качество кодирования звуковой информации зависит от :
1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.
2)глубиной кодирования, т.е. количества уровней сигнала.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.
Форматы звуковых файлов
РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.
WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали — это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.
RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.
IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga — одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.
MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.
AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.
MID. Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.
МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для «обычных немузыкальных» людей потери не ощутимы явно.
VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF — процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.
RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.
Источник