- 3.4 Технологии и средства обработки звуковой информации
- Лабораторная работа. Обработка звуковой информации
- Содержание
- Цели работы
- 1. Аудио информация в управлении
- 2. Физические основы цифровой звукозаписи
- 3. Форматы хранения аудиоинформации
- 4. О выборе технических средств цифровой звукозаписи
- 5. Цифровая запись речи
- 6. Программные средства обработки аудио информации
- 7. Индивидуальное задание
- 8. Контрольные вопросы
- 9. Требования к отчету
3.4 Технологии и средства обработки звуковой информации
Первые персональные компьютеры отличались от калькуляторов и больших ЭВМ тем, что могли издавать звуки с помощью маленького динамика, установленного в их корпусе. И хотя акустические возможности этих компьютеров были более чем скромными, уже на заре компьютерной эры появились музыкальные редакторы, с помощью которых можно было создать звуковой файл для подключения к той или иной программе, написанной пользователем.
С появлением в 1989 году звуковых карт перед пользователями открылись новые возможности. На порядок улучшилось качество звука. Появилась звуковая подсистема – комплекс программно-аппаратных средств, предназначенный для:
записи звуковых сигналов, поступающих от внешних источников (микрофона или магнитофона);
воспроизведения записанных ранее звуковых данных с помощью внешней акустической системы или головных телефонов (наушников);
микширования (смешивание) при записи или воспроизведении сигналов от внешних источников;
одновременной записи и воспроизведения звуковых сигналов;
обработки звуковых сигналов: редактирования, объединения или разъединения фрагментов сигнала, фильтрации, изменения уровня и т.п.;
управления панорамой стереофонического звукового сигнала и уровнем сигнала в каждом канале при записи и воспроизведении;
обработки звукового сигнала в соответствии с алгоритмами объемного звучания;
генерирования с помощью синтезатора звучания музыкальных инструментов через специальный интерфейс MIDI;
воспроизведения звуковых компакт-дисков;
управления компьютером и ввода текста с помощью микрофона.
Звуковая система компьютера обычно выполняется в виде самостоятельных звуковых карт, устанавливаемых на материнской плате, но может быть размещена и на другой карте расширения. Отдельные функциональные модули звуковой системы могут выполняться в виде дочерних плат, устанавливаемых в соответствующие разъемы звуковой карты. Дочерняя плата обычно расширяет базовые возможности звуковой системы.
К аппаратным средствам обработки звуковой информации относятся:
модуль записи и воспроизведения звука, который осуществляет аналого-цифровое и цифроаналоговое преобразование звуковых данных;
модуль интерфейсов, обеспечивающий взаимодействие программных и аппаратных средств;
модуль микшера, который позволяет осуществить смешивание сигналов от разных источников;
акустическая система (микрофон, наушники, колонки и т.п.).
Первые четыре модуля, как правило, устанавливаются на звуковой карте. Каждый из модулей может быть выполнен в виде отдельной микросхемы или входить в состав многофункциональной микросхемы.
Программные средства обработки звуковой информации включают в себя:
системы автоматического распознавания речи;
программы диктовки, позволяющие преобразовывать речь в «письменный» текст;
программы для улучшения качества фонограмм.
Создание (синтез) звука в основном преследует две цели:
имитацию различных естественных звуков (шум ветра и дождя, звук шагов, пение птиц и т. п.), а также акустических музыкальных инструментов;
получение принципиально новых звуков, не встречающихся в природе.
Обработка звука обычно направлена на получение новых звуков из уже существующих (например, голос робота), либо придание им дополнительных качеств или устранение существующих (например, добавление эффекта хора, удаление шума или щелчков).
Так же, как создание всевозможных анимационных эффектов и эффектов трехмерной графики базируется на использовании разнообразных математических методов, каждый из методов синтеза и обработки звука имеет свою математическую и алгоритмическую модель.
К основным программам обработки цифрового звука относят Cool Editor, Sound Forge, Samplitude, Software Audio Workshop дают возможность прослушивать выбранные участки, делать вырезки и вставки, амплитудные и частотные преобразования, звуковые эффекты, наложение других оцифровок, изменение частоты оцифровки, генерировать различные виды шумов, синтезировать звук.
Для обработки звука используются следующие основные методы 1, с. 392.
Монтаж. Состоит в вырезании из записи одних участков, вставке других, их замене, размножении и т. п. Называется также редактированием. Практически каждый музыкальный редактор имеет такие возможности редактирования. Все современные звуко- и видеозаписи в той или иной мере подвергаются монтажу.
Амплитудные преобразования заключаются в усилении или ослаблении звука.
Частотные (спектральные) преобразования – усиление или ослабление определенных полос частот.
Фазовые преобразования. Слуховой аппарат человека использует фазу для определения направления от источника звука. Фазовые преобразования стереозвука позволяют получить эффекты вращающегося звука, движущегося источника звука и им подобные.
Временные преобразования. Заключаются в добавлении к основному сигналу его копий, сдвинутых во времени на различные величины. При небольших сдвигах (порядка менее 20 мс) это дает эффект размножения источника звука (эффект хора), при больших – эффект эха.
Формантные преобразования оперируют с формантами – характерными полосами частот, встречающимися в звуках, произносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких формант, которое определяет тембр и разборчивость голоса. Изменяя параметры формант, можно подчеркивать или затушевывать отдельные звуки, менять одну гласную на другую, сдвигать регистр голоса и т. п.
Обработка речевой информации включает в себя синтез речи и автоматическое распознавание речи.
Устное сообщение можно представить как последовательность элементарных звуков, называемых фонемами, и пауз между ними. От числа фонем, выделяемых в устной речи, зависит точность ее описания. На практике для кодирования русской устной речи выделяют порядка 40-45 фонем, каждой из которых ставится в соответствие кодирующее ее обозначение. Последовательность кодов, описывающих фонемы устного сообщения, вводится и хранится в памяти ЭВМ и при необходимости выводится из нее через специальные устройства, называемые синтезаторами речи.
В настоящее время сфера применения синтезаторов речи непрерывно расширяется – используются различные автоматизированные информационно-справочные системы, системы автоматизированного контроля, способные голосом предупредить человека о состоянии контролируемого объекта, и другие системы.
Разработаны устройства, позволяющие преобразовать письменный текст в соответствующее ему фонемное представление, что дает возможность воспроизводить в виде речи произвольный текст, хранящийся в памяти компьютера.
Немало усилий было положено на то, чтобы снабдить программы и операционные системы графическим интерфейсом пользователя. Сейчас развивается новое направление – речевой интерфейс пользователя. Различные голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь.
Растет популярность средств автоматического распознавания речи. Эти средства преобразуют речь в закодированный «письменный» текст. Для этого производится спектральный анализ оцифрованной речи и определяются при помощи специальных математических методов минимальные звуковые единицы языка.
Существующие системы распознавания речи ориентированы или на слитную, или на дискретную речь. Слитная (непрерывная) речь – это нормальная плавная человеческая речь. Если система рассчитана на дискретную речь, то говорить надо с паузами между словами.
Большинство систем зависимы от диктора – перед началом работы пользователь должен «обучить» программу, произнося определенный текст. Но есть и разработки, которые не требуют этого.
Сегодня анализ звука и речи применяется во многих областях человеческой деятельности. Это биометрия, судебная экспертиза, медицина, обучение, конструкторская деятельность, научные исследования и другие. Голос человека можно использовать как пропуск в системах с ограничением доступа. При производстве судебной экспертизы материалов звукозаписи часто нужно провести идентификацию личности, то есть ответить на вопрос – принадлежит ли голос на двух фонограммах одному и тому же человеку? Можно определять эмоциональное состояние человека (уровень стресса) по параметрам устной речи. Этот способ имеет то преимущество, что человеку не нужно подсоединять датчики. Речевое сопровождение обучающих программ позволяет сделать процесс восприятия учебного материала более полным.
Источник
Лабораторная работа. Обработка звуковой информации
— изучение использования средств работы с аудио информацией в управлении организацией;
— освоение принципов выбора техники цифровой звукозаписи и обработки аудио файлов;
— овладение навыками использования он-лайн сервисов для обработки аудио файлов.
Сайт: | Электронное обучение ТГПУ им. Л.Н. Толстого |
Курс: | Технические средства управления |
Книга: | Лабораторная работа 11. Обработка звуковой информации |
Автор: | Алексеев Александр Юрьевич |
Дата: | 2015 |
Содержание
Цели работы
— изучение использования средств работы с аудио информацией в управлении организацией;
— освоение принципов выбора техники цифровой звукозаписи и обработки аудио файлов;
— овладение навыками использования он-лайн сервисов для обработки аудио файлов.
1. Аудио информация в управлении
Управленческая деятельность связана с обработкой информации, которая может представляться в самых различных формах, в том числе, в виде видео- и аудио- фрагментов.
Возможности использования звуковой информации в управлении разнообразны. Прежде всего, это фиксация процесса деловых переговоров, совещаний, конференций и т.п., затем автоматическое распознавание речи и обратная задача чтения текстов, представленных в электронном виде.
Обработка звуковой информации так же может понадобиться при создании звукового сопровождения презентаций и обучающих программ.
Сходные задачи возникают, например, при необходимости обеспечить доступ для слабовидящих пользователей к информации на сайте организации.
В любом случае, при решении указанных задач создается либо используется ранее созданный «звуковой файл», т.е. файл, хранящий в цифровой форме аудио информацию.
2. Физические основы цифровой звукозаписи
Звук представляет собой упругие волны механических колебаний, распространяемых в твердой, жидкой или газообразной среде. Как и любая волна, звук характеризуется амплитудой и спектром частот. Амплитуда звуковых колебаний воспринимается человеком как громкость, а частота колебаний как высота тона звука. Обычный человек способен слышать звуковые колебания в диапазоне частот от 16—20 Гц до 15—20 кГц. При записи и последующем воспроизведении звука производится ряд преобразований сигнала, характер которых изменяется в зависимости от выбранного способа сохранения звука и используемых технологий. Общая последовательность преобразований показана на рис.1 [1].
Рисунок 1. Схема преобразования сигнала при записи-воспроизведении звука [1]
Прежде всего, звуковые колебания воздуха преобразуются в механические колебания чувствительного элемента – мембраны.
При механической звукозаписи колебания мембраны передаются на жестко связанный с ней резец, который прорезает канавку на стенке цилиндра (получим фонограф) или на поверхности диска (получим граммофон). При воспроизведении игла, двигающаяся по канавке, передаёт колебания на упругую мембрану, которая излучает звук. Звук усиливается при помощи рупора.
Механические колебания мембраны можно преобразовать в электрический сигнал. Для этого используется микрофон.
В конденсаторном микрофоне (и его разновидности – электретном микрофоне) мембрана соединена с подвижной пластиной конденсатора. Её колебания изменяют расстояние между пластинами, а тем самым, ёмкость конденсатора, что в свою очередь изменяет электрическое напряжение. Таким образом, получаем колебания в виде изменений напряжения, соответствующие поступающему на микрофон звуку. Для поддержания заряда на пластине конденсаторного микрофона требуется подать напряжение от батареи или по микрофонному кабелю.
В динамическом микрофоне колебания мембраны передаются сердечнику катушки индуктивности, в результате его перемещение в магнитном поле возникает переменный ток, колебаниями и амплитудой соответствующий звуковому сигналу, поступившему на мембрану. Динамический микрофон не требует подачи внешнего питания.
Полученные от микрофона электрический сигнал можно направить на лампу накаливания и зафиксировать изменение ее светимости на кинопленке (так озвучиваются кинофильмы). Тот же электрический сигнал можно направить на магнитную головку магнитофона и сохранить «копию» звука на ленте магнитофона.
Во всех рассмотренных случаях (фонограф, граммофон, оптическая и магнитная запись) на физический носитель записывается сигнал таким образом, чтобы устройство воспроизведения производило колебания и создавало звуковые волны аналогичные тем, что были получены при сохранении. Это – аналоговая запись. Чтобы иметь возможность обрабатывать звук с помощью компьютера, аналоговую запись необходимо преобразовать в дискретную, которую можно описать (закодировать) в виде последовательности чисел. Такую операцию называют оцифровкой.
Основную идею оцифровки иллюстрирует рис.2.
Рисунок 2 Дискретизация аналогового сигнала
Электрическое напряжение, представляющее собой аналог звукового сигнала, измеряется с определенным временным шагом Δt, называемым шагом дискретизации. Количество замеров величины сигнала, осуществляемых в одну секунду, называют частотой дискретизации или частотой выборки, или частотой семплирования (от англ. «sampling» — «выборка»). Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале будет получено.
Чтобы аналоговый сигнал точно описывался дискретными значениями его амплитуды, частота дискретизации должна быть как минимум вдвое больше наивысшей частоты спектра сигнала (теорема Котельникова). Практически это означает, что для того, чтобы оцифрованный сигнал содержал информацию обо всем диапазоне слышимых частот исходного аналогового сигнала (0 — 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации составляло не менее 40 кГц.
Таким образом, вместо непрерывно изменяющегося сигнала (электрического напряжения), получаем набор чисел, каждое из которых соответствует определенному значению напряжения. Для хранения этих чисел может отводиться определенное количество разрядов (бит), и для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования (рис.3). Этот процесс носит название квантования по амплитуде. Квантование по амплитуде — процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью.
Рисунок 3 Погрешность квантования при разной разрядности
Точность округления зависит от количества бит (N), отведенных для записи значения амплитуды. Число N называют разрядностью квантования или битовой глубиной, а полученные в результате округления значений амплитуды числа — отсчетами или семплами (от англ. « sample» — «замер»). Считается, что погрешности квантования при семплах в 16 бит, остаются для слушателя почти незаметными.
При сохранении в памяти компьютера результаты кодируются, т.е. используются не сами результаты измерения, а числа, соответствующие номеру уровня квантования. Кроме того, при кодировании выполняется сжатие: отбрасываются данные, не влияющие на восприятие звука.
Операции преобразования входного аналогового сигнала в дискретный код – дискретизация, квантование и кодирование – выполняется специальным устройством – аналого-цифровым преобразователем (АЦП).
Для воспроизведения цифровой записи выполнятся обратная цепочка операций:
— дискретный сигнал раскодируется и преобразуется в непрерывный аналоговый, для чего служит цифро-аналоговый преобразователь (ЦАП);
— полученный электрический сигнал усиливается и подается на магнитную катушку электродинамической акустической системы или на пластину электростатической системы;
— перемещение катушки или пластины динамика передается диффузору, который и создает слышимые звуковые волны.
3. Форматы хранения аудиоинформации
Полученные в результате оцифровки данные сохраняются в файлах одного из аудио форматов.
Основные характеристики аудио форматов:
Разрядность квантования – число разрядов для хранения одного семпла, обычно 16 b, 24 b, 32 b, редко — 64 b и более.
Частота дискретизации – количество сигналов, замеряемых в секунду, принимает значения 22; 44,1; 48, …, 192 кГц.
Скорость потока (битрейт) – количество бит, используемых для хранения одной секунды мультимедийного контента. Характеризует степень сжатия потока, по величине битрейта оценивается скорость передачи потока в битах или килобитах в секунду, типичные значения 64 kbps, 128 kbps, …, 320 kbps. Для Audio DVD битрейт может достигать 6912 kbps.
Форматы аудио файлов также отличаются:
– возможностью создавать теги файлов, т.е. сохранять в файле справочную информация о записи;
– программным обеспечением, которое необходимо для записи и воспроизведения звука;
– техническими устройствами, которые предназначаются для создания, воспроизведения и обработки звука в определенном формате.
Насчитывается несколько десятков различных форматов аудио файлов. Многие производители цифровых звукозаписывающих устройств разрабатывают собственные форматы хранение аудио данных. Чтобы программы обработки цифрового звука могли «понимать» новые форматы на компьютере устанавливаются кодеки. Кодек (от кодировать/декодировать) — это небольшая программа, выполняющая преобразования (кодирование или раскодирование) сигнала из одного формата в другой.
Распространенные форматы аудио файлов
Audio – формат для записи на оптические диски (CD-Rom), в этом формате сохранить звуковой файл на другом устройстве невозможно. При просмотре в проводнике или файловом менеджере треки оптического диска отображаются только ярлыком звуковой дорожки, например Track01.cda. Степень сжатия 1:1 (без сжатия). Типичные свойства: 16 b /44.1 kHz / 1411,2 kbps.
wav — используется как контейнер для хранения несжатого звука, при этом алгоритмы кодировки могут отличаться, поэтому и свойства могут отличаться, обычные значения: 16 b / любая / до 6,144 kbps. Сопоставим по качеству с записью на аудио диск. Не позволяет сохранять теги.
mp3 – один из самых распространенных форматов цифрового кодирования звуковой информации с потерями. Принадлежит к группе стандартов на форматы хранения MPEG (Moving Picture Experts Group). Типичные свойства 16 b /44.1 kHz / 128 kbps. При этом степень сжатия достигает 1:11 к размеру оригинального файла с CD–audio. Воспроизводится практически всеми современными устройствами.
wma — (Windiws Media Audio) – система кодирования звука, разработанная компанией Microsoft. Качество звучания и средние характеристики практически идентичны формату МРЗ. Позволяет устанавливать защиту авторских прав и ограничивать распространение записей с помощью DRM (Digital rights management). В этом формате сохраняется звук, записанный с помощью стандартной программы Windows «Звукозапись». Воспроизводится большинством устройств.
Ogg\Vorbis – контейнер, позволяющий хранить данные, закодированные с потерями в форматах Vorbis, Opoos, Speex или без потерь в формате FLAC. Разрабатывается Xiph.Org Foundation – фондом создания и продвижения свободного программного обеспечения. На использование нет патентных или лицензионных ограничений. Характеристики: до 32 b/ до 193 kHz/ до 1000 kbps.
m4a – один из форматов Advanced Audio Coding (AAC) – формат аудиофайла и алгоритма кодирования с меньшей, чем у mp3 потерей качества при кодировании с одинаковыми битрейтами. Обычно используется в мобильных устройствах – смартфонах, планшетах. Варианты формата: m4b – используется для аудио книг; m4p — используется для защиты файла от копирования при загрузке музыки в онлайн-магазинах; m4r – файлы рингтонов. Характеристики 16 b /44.1 kHz / 128 kbps, распознаются большинством устройств.
dss — Digital Speech Standard File, специальный цифровой формат для записи речи. Обеспечивает высокую степень сжатия при относительно невысоком качестве. Обычно имеет характеристики 16 b / 22 kHz / 64 kbps. Используется в диктофонах и других мобильных устройствах. Для воспроизведения требуется специальная программа, например, Olympus DSS Player или конвертация файла в один из более популярных форматов.
4. О выборе технических средств цифровой звукозаписи
Выбор технических средств цифровой звукозаписи определяется назначением записи и условиями, в которых она будет выполняться и использоваться. Создание музыкальных тиражируемых записей требует использования высококачественной профессиональной аппаратуры для записи и воспроизведения, а также привлечения профессиональных звукорежиссёров и операторов. Для описанных в первом разделе целей обычно необходимо записать только речь, причем требования к диапазону воспринимаемых частот, точности воспроизведения и проч., можно несколько снизить по сравнению с требованиями к записи музыкальных композиций. Поэтому в дальнейших разделах рассматриваются те средства, которые могут быть доступны практически в любой организации.
Под мобильными устройствами звукозаписи будем понимать цифровые диктофоны и рекордеры, видео камеры, мобильные телефоны, имеющие функцию диктофона.
Для выбора устройства звукозаписи можно дать следующие, самые общие, рекомендации.
Специализированное устройство всегда лучше универсального: при одной цене устройства диктофон позволит получить лучшее качество, чем телефон с функцией диктофона.
В мобильных телефонах и диктофонах часто используются форматы аудиофайлов, разработанные производителем устройства и требующие конвертации в более распространенные форматы для использования этих записей в других устройствах (компьютерах или проигрывателях).
Диктофоны и рекордеры предназначены для одних целей и четкой границы между этими устройствами нет. Диктофоны ориентированы, прежде всего, для записи речи, отличаются невысокой частотой дискретизации (22 кГц) и невысоким качеством встроенного микрофона. Возможности рекордеров шире – от записи звуков природы до малобюджетной записи альбомов музыкальных групп. В рекордерах используются качественные встроенные микрофоны, существует возможность подключения внешних микрофонов и записи с линейного входа, поддерживаются форматы записи без сжатия или с низким сжатием.
Если для получения аудиозаписи используется видео камера или цифровой фотоаппарат в режиме видео, то так же возникает необходимость конвертации видео формата в аудио формат.
При выборе мобильных устройств цифровой звукозаписи следует рассматривать указанные ниже параметры.
Тип записи – моно или стерео.
Формат записи – wav, mp3 или один из специальных форматов производителя (потребуется конвертация).
Объем памяти, поддержка сменных карт.
Качество встроенного микрофона – чувствительность, диапазон рабочих частот, направленность, уровень шумов.
Возможность подключения внешних микрофонов.
Параметры оцифровки сигнала: частота дискретизации, квантование, битрейт.
Подключение к компьютеру: по USB (обмен быстрее) или по аудио выходу на вход звуковой карты (потребуется программа звукозаписи).
Питание – встроенный или сменный аккумулятор, возможность использования батареек формата АА или ААА.
Индикация – визуальный контроль уровня записи, объема свободной памяти, уровня зарядки аккумулятора.
Список моделей мобильных устройств для звукозаписи обновляется едва ли не ежемесячно. На настоящее время (февраль 2015 г.) можно назвать следующие модели популярных по данным Яндекс-маркет устройств (производитель / модель):
— цифровые диктофоны Sony (ICD-UX543/BC, ICD-SX733, ICD-BX112), Ritmix (RR-100, RR-850, RR-600), Olympus (LS-3, LS-11, DM-5, WS-812, WS-650S);
— аудио рекордеры Zoom (H6, Q2HDB, H1), Tascam (DR-07mkII, DR-100 MKII, DR-40), Sony (PCM-D100, PCM-M10, MZ-RH10/
С характеристиками моделей можно ознакомиться на сайтах производителей или продавцов аудио техники.
5. Цифровая запись речи
Возможны разные способы получения цифровой аудиозаписи:
— можно записать звук с помощью автономного устройства (мобильного телефона, цифрового диктофона, аудио рекордера, видеокамеры), а затем перенести полученный файл на диск компьютера и при необходимости конвертировать в нужный формат. Последовательность операций записи определяются выбранным устройством;
— запись можно создать с помощью микрофона, подключенного к звуковой карте стационарного компьютера или встроенного микрофона ноутбука. При этом потребуется одна из программ звукозаписи.
В стационарном компьютере внешний микрофон подключается к звуковой плате. Чаще всего это так называемый «мультимедийный» микрофон («гусиная шейка») – электретный микрофон, как правило, не очень высокого качества, может входить в состав гарнитуры (наушники + микрофон) или снабжаться гибкой подставкой. Характеризуются высоким уровнем шумов, всенаправленной диаграммой направленности, узким диапазоном воспринимаемых частот.
Внешний микрофон подключают штекером 3.5 мм к гнезду звуковой платы, обычно окрашенному в тот же цвет, что и штекер микрофона или отмеченному значком микрофона (рис. 4).
Рисунок 4 Разъемы звуковой платы слева направо: микрофон, линейный вход, выход на динамики
Скорее всего, может потребоваться настройка микрофона. Диалоги настройки и способ их вызова зависят от того, какая звуковая плата установлена. На рис. 5. показан диалог настройки для драйвера RealTek High Definition Audio Codecs одноименной карты. В диалоге настройке устанавливается уровень записи, усиление, изменяемые характеристики формата записи. Можно дать следующие рекомендации:
— уровень записи устанавливайте примерно в середине шкалы, чтобы уменьшить искажения громких звуков;
— усиление при записи речи не следует задавать больше 10 дб, чтобы не записывать окружающие шумы;
— при записи речи достаточно установить формат «качество компакт диска».
Рисунок 5 Диалог настройки микрофона в диспетчере Realtek
Для других аудио карт настройка осуществляется аналогично.
Такие же настройки можно выполнить, если из контекстного меню аудиоустройства выбрать пункт «Записывающие устройства», затем вкладку «Запись», выделить микрофон в списке устройств и нажать кнопку «Свойства». При этом уровень записи и усиление устанавливаются на вкладке «Уровни», дополнительные возможности включаются на вкладке «Улучшение», а выбор формата файла производится на вкладке «Дополнительно» (рис.6).
Рисунок 6 Диалог настройки свойств микрофона (п. «Звуки» контекстного меню аудиоустройства)
Самое простое программное средство для записи стандартная программа Windows «Звукозапись». Она запускается через меню «Пуск» — «Все программы» — «Служебные» — «Звукозапись» (для Windows XP: «Пуск» — «Все программы» — «Служебные» — «Развлечения» — «Звукозапись»).
Все управление записью состоит в нажатии кнопок «Начать запись» и «Остановить запись» (рис.7)
Рисунок 7 Окно программы перед началом и в процессе записи
После нажатия кнопки «Остановить» откроется стандартный диалог сохранения файла. Файл будет сохранен в формате Windiws Media Audio с расширением wma. Если отказаться от сохранения файла, то программа предложит возобновить запись, таким образом можно организовать паузу при записи.
Существует множество других программ, позволяющих получить запись не только с микрофонов, но и с линейного входа, интернет-радио и из других источников. Эти программы отличаются возможностями для настройки, разнообразием форматов для сохранения записей, различными функциями контроля и обслуживания.
Среди бесплатных и условно бесплатных можно указать:
Free Audio Recorder (http://www.accmeware.com/)
Power Sound Editor Free (http://www.free-sound-editor.com/download.html)
Free Sound Recorder(http://www.sound-recorder.biz/download_freesoundrecorder.html)
В большинство этих программ включены средства для редактирования аудио файлов.
Основные недостатки описанной технологии:
– невысокое качество записи, связанное с низкими характеристиками применяемого микрофона;
– отсутствие мобильности при использовании стационарного компьютера.
Обычно запись создается средствами мобильного устройства, а затем обрабатывается и воспроизводится на компьютере.
6. Программные средства обработки аудио информации
Это название объединяет очень разные по назначению программы.
Программы распознавания речи обеспечивают преобразование речевого сигнала в цифровую информацию, представленную, например, в виде текста. Используются для голосового управления информационными системами, голосового ввода текста, голосового поиска и т.п. Требуют четкой артикуляции и ясности речи, чувствительны к шуму.
Примеры: голосовой ввод текстов Dragon NaturallySpeaking (www.nuance.com/dragon/), RealSpeaker (realspeaker.net/ru/), программное обеспечение для систем контактных центров VoiceNavigator (www.voicenavigator.ru).
Существует несколько он-лайн сервисов для голосового создания текстов, например, «Голосовой блокнот» (www.speechpad.ru) и «Интернет-диктовки» (www.Dictation.io), оба сервиса работают с броузером Chrome, требуют установки расширения «Голосовой ввод текста» и используют движок «Google-голосовой поиск» для распознания.
Программы синтеза речи решают обратную задачу генерации речевого сигнала по тексту. Используются для помощи слепым и немым, для управления человеком со стороны компьютера, в информационно-справочных системах, например, для передачи объявлений об отправлении поездов. Пока, синтезированную речь можно сразу же отличить от голоса человека.
Примеры программ: Acapela (www.acapela-group.com/ на сайте можно прослушать примеры синтеза речи по введенному короткому тексту), Vokalizer (www.nuance.com), отечественная разработка RHVoice (www.tiflo.info/rhvoice/).
Аудио редакторы – программы для редактирования цифровой звукозаписи с целью устранения дефектов записи или создания определенных эффектов.
Основные функции аудио редактора:
– запись звукового сигнала, поступающего со входа звуковой платы. Обычно производится без сжатия;
– воспроизведение звукового сигнала используется в редакторе для контроля выполненных операций;
– отображение звукового сигнала в виде последовательности отсчетов, которые объединены одной огибающей, соответствующей амплитуде звукового сигнала, называемой сигналограммой или волновой формой (рис.8). Такое отображение позволяет визуально обнаруживать места требуемых изменений;
— преобразования звука:
- устранение посторонних звуков,
- подавление шумов,
- удаление или вставка пауз,
- изменение громкости,
- создание нарастания или затухания звука и многое другое.
Одним из часто используемых преобразований является нормализация – процесс выравнивания громкости, относительно какого-либо уровня, например, до максимально возможного значения для цифрового звука без появления искажений (пиковая нормализация) или по среднеквадратичному значению уровня звука в файле (RMS-нормализация);
— создание и редактирование мета-данных (тегов),т.е. справочной текстовой информации, сохраняемой в том же файле, что и звук;
— сохранение записи в аудиофайле с требуемыми характеристиками, на этом этапе производится сжатие аудио данных.
Рекомендуется промежуточные результаты обработки сохранять в формате без сжатия, и только окончательный вариант — в формате с требуемой степенью сжатия.
Рисунок 8 Отображение сигнала в аудио редакторе (запись голоса в режиме моно)
Несколько популярных аудио редакторов.
Soudne Forge полупрофессиональный продукт Sony Creative Software, обеспечивает выполнение большинства необходимых функций (запись, обрезка, фильтрация, подавление шума), поддерживает более 20 звуковых форматов. Платный.
Adobe Audition (раньше назывался Cool Edit Pro) — полнофункциональный аудио редактор, производства фирмы Adobe. Поддерживает практически все звуковые форматы файлов. Входит в пакет Adobe Creative Suite. Помимо прочего позволяет выполнять сведение звукозаписи. Платный.
Audacity поддерживает запись (в том числе, нескольких каналов), редактирование, сведение. Требует установки кодеков libmad или LAME. Свободно распространяемый (лицензия GNU General Public License).
WavePad профессиональная программа для обработки звука, поддерживает большинство функция обработки звука, разработчик NCH Software. Среди прочих возможностей, поддерживает пакетную обработку файлов. Первоначально устанавливается облегченная версия, по мере обращения к тем или иным функциям загружаются дополнительные модули. Бесплатный (показывает встроенную рекламу).
Большой список и краткие характеристики аудио редакторов приведены в [8].
Большинство редакторов позволяют сохранять аудио файлы в одном из нескольких поддерживаемых форматов. Таким образом, они играют роль конверторов звуковых файлов. Существуют и специализированные конверторы.
Удачное решение предлагает компания DVDVideoSoft. Распространяемая ею программа FreeStudio Manager позволяет выбрать для запуска или загрузки программу из нескольких категорий (для работы с сервисом YouTube, для загрузки файлов с популярных ресурсов, для конвертации, редактирования и записи аудио и видео файлов, см. рис. 9.). При установке программ от DVDVideoSoft следует выбирать режим установки для опытного пользователя и не разрешать устанавливать предлагаемые программы (Opera, Skype, антивирус и др.). Программа и загружаемые компоненты бесплатны, поэтому постоянно демонстрируют рекламные заставки и назойливо предлагают обновить программное обеспечение до премиум класса (платного).
Рис. 9. Менеджер FreeStudio: выбор конвертора
Конверторы от DVDVideoSoft просты и позволяют конвертировать медиа файлы популярных форматов. Так аудио конвертор Free Audio Converter (рис.10) позволяет конвертировать одновременно несколько файлов разных форматов из различных источников в файлы выбранного формата с требуемым качеством. Файлы-результаты помещаются в выбранную папку или сохраняются в папке исходного файла.
Рисунок 10 Конвертор аудио файлов
Качественная обработка звука требует специальных знаний, хорошего слуха, профессиональной техники и программного обеспечения.
Можно дать несколько самых общих рекомендаций по непрофессиональной обработке звука средствами аудио редакторов.
1) Если не предполагается создание плей-листа для последовательного воспроизведения нескольких треков, то в начале и конце трека полезно создать паузу продолжительностью
2 сек. (Операции Insert Silence | Mute | Вставить тишину и т.п.)
2) Следует очень аккуратно использовать программные средства шумоподавления. Они удаляют постоянную составляющую шума, например, шум ленты при оцифровке магнитных кассет, но одновременно теряется и часть полезной информации, и возникает эффект «голоса в металлической бочке».
3) Нормализация – выравнивание уровня звука по длине трека – производится после удаления резких щелчков, стуков и тому подобных шумов.
4) Все промежуточные результаты сохраняются в форматах без потерь. Конвертация в любой формат со сжатием должна быть последней операцией со звуковым файлом.
Обработка коротких речевых записей часто может быть ограничена сравнительно небольшим набором операций:
— удаление фрагмента записи (посторонний шум, ненужная пауза);
— вставка или удаление пауз в начало и конец записи;
— создание нарастания звука в начале записи и затухания в конце.
Если потребность в обработке звука возникает эпизодически, для выполнения этих функций можно воспользоваться одним из он-лайн сервисов.
В качестве примера такого сервиса рассмотрим ресурс Mp3Cut.ru. На рисунке 11 показаны три шага, позволяющие получить из аудиозаписи требуемый фрагмент. Для этого требуется загрузить аудио файл на сайт (шаг 1), установить границы обрезки (шаг 2) и скачать результат на свой компьютер (шаг 3).
Рисунок 11 Обработка записи на сайте Mp3Cut.ru
Так же просто производится склейка нескольких фрагментов в одну новую запись – микст (рис.12).
Рисунок 12 Склейка записи из двух фрагментов на сайте Mp3Cut.ru
Для создания микста на сайт загружаются или надиктовываются треки-фрагменты (1), для каждого трека устанавливаются границы обрезки, если необходимо, включается кросфейд (функция плавного соединения треков), и функции нарастания\затухания звука для первого и последнего трека (2). После соединения треков (3) полученный микст можно скачать.
Кроме обрезки и склейки треков ресурс позволяет конвертировать аудио файлы в несколько популярных форматов, конвертировать и обрезать видео (файла до 500 Мв), сделать аудио запись через микрофон или веб-камеру.
7. Индивидуальное задание
С помощью любого из доступных вам технических средств создайте аудио запись следующего содержания:
— представление (студент такой-то группы…);
— выступление длительностью 1.5-2 минуты по теме вашего индивидуального задания по курсу.
Сохраните запись на компьютере в формате mp3 с максимальным доступным качеством (при необходимости выполните конвертацию).
Используя он-лайн сервис или аудио редактор, установленный на вашем компьютере, отредактируйте запись:
— вырежьте паузы, кашель и слова-паразиты и прочие посторонние шумы;
— разделите запись на два трека: представление и выступление;
— сохраните полученные треки в формате mp3, 64kbps.
Загрузите в обучающую систему исходный файл и результат обработки.
8. Контрольные вопросы
1. Что означают надписи “A to D” и “D to A” на рис. 1?
2. На каком – левом или правом – изображении на рис. 3 обеспечивается лучшее приближение записи к исходному звучанию? Почему?
3. Каким параметром характеризуется степень сжатия звукового потока?
4. Что такое кодек?
5. Почему рекомендуется промежуточные результаты обработки звука сохранять без сжатия?
6. Приведите характеристики использованного устройства звукозаписи (используйте перечень параметров, рекомендованных для выбора устройств в разделе 5.)
7. Приведите характеристики созданного вами аудио файла.
8. Сравните качество созданной вами аудио записи с качеством конвертированных результатов редактирования.
9. Требования к отчету
Отчет оформляется как документ Word.
В отчете указываются номер и название лабораторной работы, номер учебной группы и фамилия студента,
Отчет должен содержать:
— ответы на контрольные вопросы;
— описание устройства, на котором была получена аудиозапись;
— описание использованных программных средств (название конверторов, аудио редакторов или url веб-ресурсов для обработки он-лайн);
— характеристики исходного и полученного аудио файлов в следующим виде:
Источник