Способы кодирования устной речи

Основные методы кодирования речи

Кодер речи является первым элементом собственно цифрового участка передающего тракта АЦП [43]. Основная задача кодера (английский термин encoder) – предельно возможное сжатие сигнала речи, представленного в цифровой форме, т.е. предельно возможное устранение избыточности речевого сигнала, но при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи; задача декодера (английский термин decoder) – восстановление обычного цифрового сигнала речи (с присущей ему естественной избыточностью) по принятому кодированному сигналу. Сочетание кодера и декодера называют кодеком (английский термин – codec).

Прежде чем перейти к рассмотрению кодера речи, используемого в GSM, приведем некоторые общие сведения об основных методах кодирования.

Исторически [43] сложилось два направления кодирования речи: кодирование формы сигнала (waveform coding) и кодирование источника сигнала (source coding).

Первый метод основан на использовании статистических характеристик сигнала и практически не зависит от механизма формирования сигнала. Кодеры этого типа с самого начала обеспечивали высокое качество передачи речи (хорошую разборчивость и натуральность речи), но отличались меньшей по сравнению со вторым методом экономичностью. В методе кодирования формы сигнала используются три основных способа кодирования: импульсно-кодовая модуляция – ИКМ (английское наименование Pulse Code Modulation – PCM), дифференциальная ИКМ – ДИКМ (Differential PCM – DPCM) и дельта-модуляция – ДМ (Delta Modulation – DM).

Второй метод – кодирование источника сигнала, или кодирование параметров сигнала, первоначально основывался на данных о механизмах речеобразования, т.е. этот метод использовал своего рода модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодерных систем, или вокодеров (vocoder– сокращение от voice coder, т.е. кодер голоса или кодер речи). Ранние вокодеры позволяли получать весьма низкую скорость передачи информации, но при характерном «синтетическом» качестве речи на выходе. Поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов, не находя широкого практического применения.

Ситуация существенно изменилась с появлением метода линейного предсказания, предложенного в 1960-х годах и получившего мощное развитие в 1980-х годах на основе достижений микроэлектроники [4].

В настоящее время в системах подвижной связи получили распространение вокодерные методы на основе метода линейного предсказания. Суть кодирования речи на основе метода линейного предсказания (Linear Predictive Coding – LPC) заключается в том, что по линии связи передаются не параметры речевого сигнала, а параметры некоторого фильтра, в определенном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания. Задача кодирования на передающем конце линии связи заключается в оценке параметров фильтра и параметров сигнала возбуждения, а задача декодирования на приемном конце – в пропускании сигнала возбуждения через фильтр, на выходе которого получается восстановленный сигнал речи.

Читайте также: Метание способом от себя

Метод линейного предсказания заключается в том, что очередной отсчет (выборка) речевого сигнала S_n с некоторой степенью точности предсказывается линейной комбинацией М предшествующих отсчетов:

где а_i – коэффициенты линейного предсказания; М— порядок предсказания. Разность между истинным S_n и предсказанным S значениями отсчетов определяет ошибку предсказания (остаток предсказания):

В результате z-преобразования этого разностного уравнения получаем

Полученное выражение для A(z) соответствует структуре трансверсального фильтра, (рис. 3.1). Порядок предсказания выбирается из условия компромисса между качеством передачи речи и пропускной способностью линии связи, на практике М равно порядка 10.

Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет 20 мс), находятся из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента.

Для этого частные производные ( е ) / a_i , i = , приравниваются к нулю, что приводит к системе М линейных уравнений с М неизвестными коэффициентами а_i. Матрица системы и метод ее решения оказываются несколько различными в зависимости от того, какими свойствами наделяется речевой сигнал на интервале преобразуемого сегмента речи. ( Если речевой сигнал на этом интервале считается стационарным случайным процессор (автокорреляционный метод оценки коэффициентов предсказания), то матрица системы уравнений является Теплицевой и система решается с помощью итерационной процедуру алгоритма Дарбина, а фильтр-синтезатор получается заведомо устойчивым [43]. Если речевой сигнал считается нестационарным процессом (ковариационный метод оценки коэффициентов предсказания), то матрица системы симметрична, но не Теплицева, система решается с использованием разложения Холецкого, а для обеспечения устойчивости фильтра-синтезатора ковариационный метод соответствующим образом модифицируют [43].

Рис. 3.1. Анализирующий трансверсальный фильтр при порядке предсказания М = 3

В обоих случаях (как в автокорреляционном методе, так и в ковариационном) в качестве побочного результата решения получаются значения так называемых коэффициентов отражения, или коэффициентов частичной корреляции (Partial Correlation Coefficients, или Parcor Coefficients k_i, i= 1. M) , число которых равно числу коэффициентов линейного предсказания a_i, и которые связаны с коэффициентами а_i , взаимно однозначными нелинейными функциональными соотношениями.

Коэффициенты отражения непосредственно связаны с другой формой фильтра линейного предсказания – так называемым решетчатым, или лестничным (Lattice) фильтром (рис. 3.2). Коэффициенты отражения к более удобны, чем коэффициенты линейного предсказания а для передачи по линии связи, так как в силу своих статистических характеристик в меньшей степени могут приводить к потере устойчивости фильтра при квантовании. Иначе говоря, они требуют меньшего числа разрядов при квантовании, т.е. приводят к более экономичному использованию линии связи [4]. Иногда используются также функции от коэффициентов отражения – логарифмические отношения площадей (Log-Area Ratio – LAR):

r_i=log

название которых связано с моделью голосового тракта в виде набора акустических труб различных сечений.

Передаточная характеристика фильтра-синтезатора H(z) обратна передаточной характеристике фильтра-анализатора A(z) с точностью до скалярного коэффициента усиления G :

Синтезирующий фильтр имеет ту же структуру, что и анализирующий (инверсный), и определяется тем же набором параметров (коэффициентов предсказания а_i , или коэффициентов отражения k_i , или логарифмических отношений площадей r_i), но входы и выходы в анализирующем и синтезирующем фильтрах меняются местами. Если на вход синтезирующего фильтра подать сигнал возбуждения, то на его выходе будет получен речевой сигнал с тем качеством, которое обеспечивается фильтром при принятом порядке предсказания, используемом числе дискретов для квантования параметров фильтра и прочих ограничениях и погрешностях того же характера.

Рис. 3.2. Анализирующий решетчатый фильтр при порядке предсказания М = 3

Таким образом, процедура кодирования речи в методе линейного предсказания сводитсяся к следующему (рис. 3.3):

— оцифрованный сигнал речи нарезается на сегменты длительностью 20 мс (160 выборок по 8 разрядов в каждом сегменте);

— для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения; в качестве сигнала возбуждения в простейшем случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр линейного предсказания с параметрами, полученными из оценки для данного сегмента;

— параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.

Рис. 3.3. Работа кодека речи в методе линейного предсказания

Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Приведенное описание процессов кодирования декодирования речи не является исчерпывающим, оно объясняет принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами [43].

Во-первых, описанная схема линейного предсказания – кратковременное предсказание (Short-Term Prediction – STP) не обеспечивает достаточной степени устранения избыточности речи. Поэтому в дополнение к кратковременному предсказанию используется еще долговременное предсказание (Long-Term Prediction – LTP), в значительной мере устраняющее остаточную избыточность и приближающее остаток предсказания по своим статистическим характеристикам к белому шуму.

Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа разрядов. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но не по вычислительным затратам) методы формирования сигнала возбуждения. В ранних кодеках линейного предсказания для формирования сигнала возбуждения передавались сигнал тон/шум (двоичный признак, указывающий, является ли передаваемый сегмент речи вокализованным, т.е. тональным, или невокализованным, т.е. шумовым), период основного тона и амплитуда сигнала.

Источник

10. Кодирование информации

Понять, что такое кодирование и как люди кодируют информацию.

Научиться кодировать информацию разными способами.

Когда мы говорим, это звуковое кодирование информации. Речь человека можно иначе назвать звуковым сообщением. Каждое слово в звуковом сообщении имеет определённое значение, то есть смысл. Слова несут человеку информацию. Если устное сообщение закодировать знаками на носителе информации, например на бумаге, это будет письменное сообщение.

Чтобы создавать письменные сообщения, люди изобрели письменность.

Письменность — это способ кодирования информации с целью сохранять информацию и передавать её.

Для каждого звука люди придумали своё графическое изображение — знак, который назвали буквой.

Это могло быть и так. Услышал человек звук. Он понял, что жужжит жук, и изобразил это знаком, похожим на жука.

Буква Ж напоминает жука, который жужжит. А слово «жужжит» не случайно содержит три буквы Ж. При произношении оно напоминает звуки, которые издает жук.

Буквы придумали для кодирования звуковой информации, чтобы её было удобно хранить и передавать.

Буквы записали в определённом порядке, и этот список букв назвали алфавитом. Строгий порядок расположения букв в алфавите связывает буквы в систему знаков. Каждый знак занимает определённое место.

Слово «алфавит» придумали в Древней Греции. Оно произошло от названия двух первых букв греческого алфавита: «альфа» и «вита».

На Руси пользовались буквами, которые изображены на рисунке:

От названия первых двух букв славянского алфавита «аз» и «буки» произошло слово «азбука».

Кодирование информации с помощью букв называют алфавитным письмом.

Буквенное кодирование информации обладает замечательным свойством. Например, в алфавите русского языка всего 33 буквы, но с их помощью можно закодировать любые слова.

Кодирование информации — это её представление на носителе в форме, удобной для хранения и передачи.

Кодировать информацию можно и другими знаками — цифрами. Из цифр можно составить число по специальным правилам. Правила составления чисел из цифр школьники изучают на уроках математики. Числом кодируют количество предметов или порядковый номер предмета в ряду.

Кодировать информацию можно звуками барабана, колокола, горна. В мобильном телефоне вызов разных абонентов можно закодировать разными мелодиями.

Чтобы записать мелодию на бумаге, используют нотное кодирование. Для этого люди придумали упорядоченный набор нотных знаков: систему символов. Каждая нота представляет собой условный графический знак. Ноты располагают на нотоносце. Нотоносец — это пять линий, связанных скрипичным или басовым ключом. Каждая нота указывает высоту и длительность звука.

Источник