Способы кодирования устной речи

Основные методы кодирования речи

Кодер речи является первым элементом собственно цифрового участка передающего тракта АЦП [43]. Основная задача кодера (английский термин encoder) – предельно возможное сжатие сигнала речи, представленного в цифровой форме, т.е. предельно возможное устранение избыточности речевого сигнала, но при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи; задача декодера (английский термин decoder) – восстановление обычного цифрового сигнала речи (с присущей ему естественной избыточностью) по принятому кодированному сигналу. Сочетание кодера и декодера называют кодеком (английский термин – codec).

Прежде чем перейти к рассмотрению кодера речи, используемого в GSM, приведем некоторые общие сведения об основных методах кодирования.

Исторически [43] сложилось два направления кодирования речи: кодирование формы сигнала (waveform coding) и кодирование источника сигнала (source coding).

Первый метод основан на использовании статистических характеристик сигнала и практически не зависит от механизма формирования сигнала. Кодеры этого типа с самого начала обеспечивали высокое качество передачи речи (хорошую разборчивость и натуральность речи), но отличались меньшей по сравнению со вторым методом экономичностью. В методе кодирования формы сигнала используются три основных способа кодирования: импульсно-кодовая модуляция – ИКМ (английское наименование Pulse Code Modulation – PCM), дифференциальная ИКМ – ДИКМ (Differential PCM – DPCM) и дельта-модуляция – ДМ (Delta Modulation – DM).

Второй метод – кодирование источника сигнала, или кодирование параметров сигнала, первоначально основывался на данных о механизмах речеобразования, т.е. этот метод использовал своего рода модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодерных систем, или вокодеров (vocoder– сокращение от voice coder, т.е. кодер голоса или кодер речи). Ранние вокодеры позволяли получать весьма низкую скорость передачи информации, но при характерном «синтетическом» качестве речи на выходе. Поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов, не находя широкого практического применения.

Ситуация существенно изменилась с появлением метода линейного предсказания, предложенного в 1960-х годах и получившего мощное развитие в 1980-х годах на основе достижений микроэлектроники [4].

В настоящее время в системах подвижной связи получили распространение вокодерные методы на основе метода линейного предсказания. Суть кодирования речи на основе метода линейного предсказания (Linear Predictive Coding – LPC) заключается в том, что по линии связи передаются не параметры речевого сигнала, а параметры некоторого фильтра, в определенном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания. Задача кодирования на передающем конце линии связи заключается в оценке параметров фильтра и параметров сигнала возбуждения, а задача декодирования на приемном конце – в пропускании сигнала возбуждения через фильтр, на выходе которого получается восстановленный сигнал речи.

Читайте также:  Метание способом от себя

Метод линейного предсказания заключается в том, что очередной отсчет (выборка) речевого сигнала Sn с некоторой степенью точности предсказывается линейной комбинацией М предшествующих отсчетов:

где аi – коэффициенты линейного предсказания; М— порядок предсказания. Разность между истинным Sn и предсказанным S значениями отсчетов определяет ошибку предсказания (остаток предсказания):

В результате z-преобразования этого разностного уравнения получаем

Полученное выражение для A(z) соответствует структуре трансверсального фильтра, (рис. 3.1). Порядок предсказания выбирается из условия компромисса между качеством передачи речи и пропускной способностью линии связи, на практике М равно порядка 10.

Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет 20 мс), находятся из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента.

Для этого частные производные ( е ) / ai , i = , приравниваются к нулю, что приводит к системе М линейных уравнений с М неизвестными коэффициентами аi. Матрица системы и метод ее решения оказываются несколько различными в зависимости от того, какими свойствами наделяется речевой сигнал на интервале преобразуемого сегмента речи. ( Если речевой сигнал на этом интервале считается стационарным случайным процессор (автокорреляционный метод оценки коэффициентов предсказания), то матрица системы уравнений является Теплицевой и система решается с помощью итерационной процедуру алгоритма Дарбина, а фильтр-синтезатор получается заведомо устойчивым [43]. Если речевой сигнал считается нестационарным процессом (ковариационный метод оценки коэффициентов предсказания), то матрица системы симметрична, но не Теплицева, система решается с использованием разложения Холецкого, а для обеспечения устойчивости фильтра-синтезатора ковариационный метод соответствующим образом модифицируют [43].

Рис. 3.1. Анализирующий трансверсальный фильтр при порядке предсказания М = 3

В обоих случаях (как в автокорреляционном методе, так и в ковариационном) в качестве побочного результата решения получаются значения так называемых коэффициентов отражения, или коэффициентов частичной корреляции (Partial Correlation Coefficients, или Parcor Coefficients ki, i= 1. M) , число которых равно числу коэффициентов линейного предсказания ai, и которые связаны с коэффициентами аi , взаимно однозначными нелинейными функциональными соотношениями.

Коэффициенты отражения непосредственно связаны с другой формой фильтра линейного предсказания – так называемым решетчатым, или лестничным (Lattice) фильтром (рис. 3.2). Коэффициенты отражения к более удобны, чем коэффициенты линейного предсказания а для передачи по линии связи, так как в силу своих статистических характеристик в меньшей степени могут приводить к потере устойчивости фильтра при квантовании. Иначе говоря, они требуют меньшего числа разрядов при квантовании, т.е. приводят к более экономичному использованию линии связи [4]. Иногда используются также функции от коэффициентов отражения – логарифмические отношения площадей (Log-Area Ratio – LAR):

Читайте также:  Лучшие способы отопления теплиц

ri=log

название которых связано с моделью голосового тракта в виде набора акустических труб различных сечений.

Передаточная характеристика фильтра-синтезатора H(z) обратна передаточной характеристике фильтра-анализатора A(z) с точностью до скалярного коэффициента усиления G :

Синтезирующий фильтр имеет ту же структуру, что и анализирующий (инверсный), и определяется тем же набором параметров (коэффициентов предсказания аi , или коэффициентов отражения ki , или логарифмических отношений площадей ri), но входы и выходы в анализирующем и синтезирующем фильтрах меняются местами. Если на вход синтезирующего фильтра подать сигнал возбуждения, то на его выходе будет получен речевой сигнал с тем качеством, которое обеспечивается фильтром при принятом порядке предсказания, используемом числе дискретов для квантования параметров фильтра и прочих ограничениях и погрешностях того же характера.

Рис. 3.2. Анализирующий решетчатый фильтр при порядке предсказания М = 3

Таким образом, процедура кодирования речи в методе линейного предсказания сводитсяся к следующему (рис. 3.3):

— оцифрованный сигнал речи нарезается на сегменты длительностью 20 мс (160 выборок по 8 разрядов в каждом сегменте);

— для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения; в качестве сигнала возбуждения в простейшем случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр линейного предсказания с параметрами, полученными из оценки для данного сегмента;

— параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.

Рис. 3.3. Работа кодека речи в методе линейного предсказания

Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Приведенное описание процессов кодирования декодирования речи не является исчерпывающим, оно объясняет принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами [43].

Во-первых, описанная схема линейного предсказания – кратковременное предсказание (Short-Term Prediction – STP) не обеспечивает достаточной степени устранения избыточности речи. Поэтому в дополнение к кратковременному предсказанию используется еще долговременное предсказание (Long-Term Prediction – LTP), в значительной мере устраняющее остаточную избыточность и приближающее остаток предсказания по своим статистическим характеристикам к белому шуму.

Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа разрядов. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но не по вычислительным затратам) методы формирования сигнала возбуждения. В ранних кодеках линейного предсказания для формирования сигнала возбуждения передавались сигнал тон/шум (двоичный признак, указывающий, является ли передаваемый сегмент речи вокализованным, т.е. тональным, или невокализованным, т.е. шумовым), период основного тона и амплитуда сигнала.

Читайте также:  Вальсакор способ применения дозы

Источник

10. Кодирование информации

Понять, что такое кодирование и как люди кодируют информацию.

Научиться кодировать информацию разными способами.

Когда мы говорим, это звуковое ко­дирование информации. Речь человека можно иначе назвать звуковым сообще­нием. Каждое слово в звуковом сообще­нии имеет определённое значение, то есть смысл. Слова несут человеку информацию. Если устное сообщение закодировать знаками на носителе информации, напри­мер на бумаге, это будет письменное сообщение.

Чтобы создавать письменные сообще­ния, люди изобрели письменность.

Письменность — это способ кодирования информации с целью сохранять информацию и передавать её.

Для каждого звука люди придумали своё графическое изображение — знак, который назвали буквой.

Это могло быть и так. Услышал чело­век звук. Он понял, что жужжит жук, и изобразил это знаком, похожим на жука.

Буква Ж напоминает жука, который жужжит. А слово «жужжит» не случайно содержит три буквы Ж. При произношении оно напоминает звуки, которые издает жук.

Буквы придумали для кодирования звуковой информации, чтобы её было удобно хранить и передавать.

Буквы записали в определённом по­рядке, и этот список букв назвали алфа­витом. Строгий порядок расположения букв в алфавите связывает буквы в сис­тему знаков. Каждый знак занимает опре­делённое место.

Слово «алфавит» придумали в Древней Греции. Оно произошло от названия двух первых букв греческого алфавита: «альфа» и «вита».

На Руси пользовались буквами, кото­рые изображены на рисунке:

От названия первых двух букв славян­ского алфавита «аз» и «буки» произошло слово «азбука».

Кодирование информации с помощью букв называют алфавитным письмом.

Буквенное кодирование информации обладает замечательным свойством. На­пример, в алфавите русского языка всего 33 буквы, но с их помощью можно зако­дировать любые слова.

Кодирование информации — это её представление на носителе в форме, удобной для хранения и передачи.

Кодировать информацию можно и другими знаками — цифрами. Из цифр можно составить число по специальным правилам. Правила составления чисел из цифр школьники изучают на уроках мате­матики. Числом кодируют количество пред­метов или порядковый номер предмета в ряду.

Кодировать информацию можно зву­ками барабана, колокола, горна. В мо­бильном телефоне вызов разных абонентов можно закодировать разными мелодиями.

Чтобы записать мелодию на бумаге, используют нотное кодирование. Для этого люди придумали упорядоченный набор нотных знаков: систему символов. Каждая нота представляет собой условный графический знак. Ноты располагают на нотоносце. Нотоносец — это пять линий, связанных скрипичным или басовым клю­чом. Каждая нота указывает высоту и дли­тельность звука.

Источник

Оцените статью
Разные способы