Реферат: Кодеры речи
--PAGE_BREAK--Адаптивный предсказатель и калькулятор восстановленного сигнала. Первоначальная функция адаптивного предсказателя заключается в вычислении оценки <shape id="_x0000_i1082" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image086.wmz» o:><img width=«35» height=«25» src=«dopb223964.zip» v:shapes="_x0000_i1082"> разностного сигнала <shape id="_x0000_i1083" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image064.wmz» o:><img width=«40» height=«25» src=«dopb223953.zip» v:shapes="_x0000_i1083">. Используются две структуры адаптивного предсказателя – каскад первого порядка, моделирующий нули, и каскад второго порядка, моделирующий полюсы во входном сигнале.Детектор тона и перехода. С целью улучшения рабочих характеристик для сигналов, поступающих с выходов модемов с частотной манипуляцией, работающих в режиме кодовых комбинаций, определен двухступенчатый процесс декодирования. Сначала производится детектирование сигнала с ограниченной полосой (например, тона), в результате чего квантователь может быть переведен в быстрый режим адаптации.
Упрощенная и развернутая структурные схемы декодера АДНКМ приведены на рис. 1.6, а и 1.7, б соответственно. Декодер включает схему, идентичную цепи обратной связи кодера, преобразователь линейной ИКМ в сигнал по законам А или μ и устройство установки синхронного кодирования.
Устройство установки синхронного кодирования предотвращает накопление искажений, имеющих место при синхронном последовательном кодировании (АДИКМ-ИКМ-АДИКМ, другие цифровые соединения). Установка синхронного кодирования достигается путем подстройки проходного кода ИКМ таким образом, чтобы попытаться устранить искажения квантования в следующем каскаде кодирования АДИКМ.
Функции основных блоков декодера и кодера совпадают и поэтому ниже не рассматриваются. MACROBUTTON MTEditEquationSection2 Equation Chapter (Next) Section 2 SEQ MTEqn \r \h \* MERGEFORMAT SEQ MTSec \r 2 \h \* MERGEFORMAT SEQ MTChap \h \* MERGEFORMAT
Вокодеры
Вокодер (от английских слов voice – голос и coder – кодировщик) представляет собой устройство, осуществляющее параметрическое компандирование речевых сигналов. Компрессия речевых сигналов на передающем конце канала связи производится в анализаторе, выделяющем из речевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью местных источников сигналов, управляемых принятыми параметрами, синтезируется речевой сигнал.
Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует входной сигнал в некий другой, похожий на исходный. Причем измеряемые характеристики речевого сигнала используются для подгонки параметров в принятой модели речевого сигнала. Именно эти параметры и передаются приемнику, который по ним восстанавливает исходный речевой сигнал. По существу, речь идет о синтезе речи. Естественно, что измерение искажений отношения сигнал/шум бесполезно для вокодеров, и, следовательно, необходимы другие субъективные оценки, такие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметрические.
В речеэлементных вокодерах при передаче распознаются произнесенные элементы речи (например, фонемы) и передаются только их номера. На приеме эти элементы создаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных вокодеров – линии командной связи, речевое управление и говорящие автоматы информационно-справочной службы. Практически в таких вокодерах происходит автоматическое распознавание слуховых образов, а не определение параметров речи.
В параметрических вокодерах из речевого сигнала выделяют два типа параметров:
параметры, характеризующие огибающую спектра речевого сигнала, (фильтровую функцию);
параметры, характеризующие источник речевых колебаний (генераторную функцию), – частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона, шумового сигнала.
По этим параметрам на приеме синтезируют речь.
По принципу определения параметров фильтровой функции речи различают вокодеры:
• полосные канальные (channel);
• формантные;
• ортогональные;
• липредеры (с линейным предсказанием речи);
• гомоморфные.
В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее Fcp. Их передача возможна в аналоговом или цифровом виде.
В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.
В ортогональных вокодерах огибающая мгновенного спектра раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону. Распространение получили гармонические вокодеры, использующие разложение в ряд Фурье.
Вокодеры с линейным предсказанием (LPC — Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппарате. Они получили наибольшее распространение и будут ниже рассмотрены более подробно.
Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.
Из-за сложности определения параметров генераторной функции появились полувокодеры (VE — Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигнала. Полоса частот до 800.… 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известны разные типы полувокодеров-липредеров: VELP — Voice Excite Linear Prediction; RELP — Residue Excited Linear Prediction.
Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка).
Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные.
Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и данных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирования. Общим решением является использование фиксированной скорости для речи и низкой скорости для фоновых шумов. Способ выполнения механизма сжатия пауз важен для повышения качества передачи речи, однако часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между речью и шумом. Другая проблема заключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи.
Алгоритм
Описание
Детектор активности речи (VAD)
Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости
Генерация комфортного шума
Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума
Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизированными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.
Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процессоров (ЦСП). В соответствии с компьютерной терминологией их производительность может быть измерена в млн. операций в секунду, объеме памяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэтому при определении типа вокодера для тех или иных приложений разработчик должен сделать соответствующий выбор. В случаях, когда вокодер совместно использует процессор с другими приложениями, разработчик должен решить, сколько ресурсов можно выделить для вокодера. Вокодеры, использующие менее 15 млн. операций/с, считаются низкопроизводительными. Использующие 30 или более млн. операций/с – высокопроизводительными.
Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энергетические затраты важны для приложений в портативной аппаратуре, так как при больших затратах энергии сокращается время между подзарядками батарей или возникает необходимость использовать батареи большей емкости, что, в свою очередь, приводит к большей цене и весу.
При синтезе и исследовании полосных вокодеров и полосных вокодеров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет собой нестационарный случайный процесс с медленно меняющейся дисперсией и спектральной плотностью. При использовании подобной модели можно получить наиболее точный результат оценки качества вокодера.
Ортогональные вокодеры Речевой сигнал <shape id="_x0000_i1084" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image088.wmz» o:><img width=«31» height=«21» src=«dopb223965.zip» v:shapes="_x0000_i1084"> можно промоделировать откликом на возбуждающий сигнал линейной системы с импульсной характеристикой <shape id="_x0000_i1085" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image090.wmz» o:><img width=«28» height=«21» src=«dopb223966.zip» v:shapes="_x0000_i1085"> с переменными параметрами, так что выходной сигнал <shape id="_x0000_i1086" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image092.wmz» o:><img width=«47» height=«25» src=«dopb223967.zip» v:shapes="_x0000_i1086"> равен свертке возбуждающего сигнала и импульсного отклика голосового тракта при условии, что форма голосового тракта неизменна.
Все разнообразие звуков получается путем изменения формы голосового тракта. Если форма голосового тракта изменяется медленно, то на коротких временных интервалах аппроксимация выходного сигнала сверткой возбуждающего сигнала и импульсного отклика голосового тракта справедлива. Если на коротком отрезке времени входной сигнал является периодическим, с постоянной входной частотой, то выходной сигнал также является периодическим. Такая модель справедлива для описания звонких звуков. Аналогично временному, преобразование речи может быть описано в частотной области, поскольку преобразование Фурье речевого сигнала равно произведению преобразований Фурье возбуждающего сигнала и импульсного отклика голосового тракта.
Частотная характеристика голосового тракта является гладкой функцией частоты и характеризуется акустическими резонансами, называемыми формантными частотами.
Поскольку при изменении различных звуков форма голосового тракта изменяется, то с течением времени будет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, возбуждающего звонкие звуки, частотный разнос между гармониками спектра будет также изменяться.
Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени.
Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосового тракта достаточно полно определяются частотами формант.
Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременного спектрального анализа.
Рассмотрим основные принципы, положенные в основу построения ортогональных вокодеров.
Запишем кратковременное преобразование Фурье <shape id="_x0000_i1087" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image094.wmz» o:><img width=«51» height=«21» src=«dopb223968.zip» v:shapes="_x0000_i1087"> дискретизированного речевого процесса <shape id="_x0000_i1088" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image096.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1088"> в виде
<shape id="_x0000_i1089" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image097.wmz» o:><img width=«207» height=«45» src=«dopb223969.zip» v:shapes="_x0000_i1089"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 1)
Здесь <shape id="_x0000_i1090" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image099.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1090"> весовая функция, сдвигаемая во времени.
Соотношение (2.1) может быть переписано в двух формах. Первая форма имеет вид свертки
<shape id="_x0000_i1091" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image101.wmz» o:><img width=«191» height=«26» src=«dopb223971.zip» v:shapes="_x0000_i1091"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 2)
где <shape id="_x0000_i1092" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image103.wmz» o:><img width=«17» height=«18» src=«dopb223972.zip» v:shapes="_x0000_i1092">– обозначает свертку.
Реализация (2.2) может быть представлена в виде рис. 2.2, а и означает, что спектр речевого процесса соответствует свертке весовой функции <shape id="_x0000_i1093" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image099.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1093"> с сигналом <shape id="_x0000_i1094" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image096.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1094">, промодулированным колебанием <shape id="_x0000_i1095" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image105.wmz» o:><img width=«35» height=«21» src=«dopb223973.zip» v:shapes="_x0000_i1095">.
Другая форма записи (2.1) получается, если ее переписать в виде
<shape id="_x0000_i1096" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image107.wmz» o:><img width=«427» height=«45» src=«dopb223974.zip» v:shapes="_x0000_i1096"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 3)
Система (2.3) может быть реализована в виде, представленном на рис. 2.2, б и означает преобразование речевого сигнала <shape id="_x0000_i1097" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image096.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1097"> полосовым фильтром центральной частотой ω и импульсной характеристикой <shape id="_x0000_i1098" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image109.wmz» o:><img width=«56» height=«25» src=«dopb223975.zip» v:shapes="_x0000_i1098">.
Реализации, представленные на рис. 2.2, а, б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой <shape id="_x0000_i1099" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image099.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1099">, а во втором – полосовой фильтр, что удобно при параллельном измерении <shape id="_x0000_i1100" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image111.wmz» o:><img width=«57» height=«25» src=«dopb223976.zip» v:shapes="_x0000_i1100"> на нескольких частотах ω.
Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах <shape id="_x0000_i1101" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image113.wmz» o:><img width=«168» height=«27» src=«dopb223977.zip» v:shapes="_x0000_i1101"> можно записать в виде
<shape id="_x0000_i1102" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image115.wmz» o:><img width=«224» height=«47» src=«dopb223978.zip» v:shapes="_x0000_i1102"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 4)
где <shape id="_x0000_i1103" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image117.wmz» o:><img width=«110» height=«25» src=«dopb223979.zip» v:shapes="_x0000_i1103">
Формулу (2.4) можно преобразовать к виду
<shape id="_x0000_i1104" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image119.wmz» o:><img width=«207» height=«37» src=«dopb223980.zip» v:shapes="_x0000_i1104">
где
<shape id="_x0000_i1105" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image121.wmz» o:><img width=«116» height=«36» src=«dopb223981.zip» v:shapes="_x0000_i1105"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 5)
можно рассматривать как характеристику комплексного ПФ с центральной частотой <shape id="_x0000_i1106" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image123.wmz» o:><img width=«92» height=«21» src=«dopb223982.zip» v:shapes="_x0000_i1106">.
Исходный речевой сигнал <shape id="_x0000_i1107" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image096.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1107"> можно восстановить, сложив сигналы
на всех выходах гребенки ПФ так, что
<shape id="_x0000_i1108" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image125.wmz» o:><img width=«271» height=«99» src=«dopb223983.zip» v:shapes="_x0000_i1108"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 6)
Формула (2.4) является основополагающим уравнением анализа с кратковременным преобразованием Фурье, а формула (2.6) – основным уравнением синтезатора.
Гомоморфные вокодеры В основе гомоморфных вокодеров лежит метод нелинейной (гомоморфной) фильтрации. Общая структура гомоморфных систем, предназначенных для инверсной фильтрации речевых сообщений, представлена на рис. 2.4.
Свойства системы <shape id="_x0000_i1109" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image127.wmz» o:><img width=«36» height=«25» src=«dopb223984.zip» v:shapes="_x0000_i1109"> определяется соотношением <shape id="_x0000_i1110" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image129.wmz» o:><img width=«110» height=«25» src=«dopb223985.zip» v:shapes="_x0000_i1110">, где <shape id="_x0000_i1111" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image131.wmz» o:><img width=«39» height=«21» src=«dopb223986.zip» v:shapes="_x0000_i1111">и<shape id="_x0000_i1112" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image133.wmz» o:><img width=«39» height=«25» src=«dopb223987.zip» v:shapes="_x0000_i1112"> – Z-преобразования <shape id="_x0000_i1113" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image135.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1113"> и <shape id="_x0000_i1114" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image136.wmz» o:><img width=«35» height=«25» src=«dopb223964.zip» v:shapes="_x0000_i1114"> соответственно.
Сигнал на выходе системы <shape id="_x0000_i1115" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image127.wmz» o:><img width=«36» height=«25» src=«dopb223984.zip» v:shapes="_x0000_i1115"> обычно называют комплексным кепстром. Система <shape id="_x0000_i1116" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image137.wmz» o:><img width=«30» height=«21» src=«dopb223988.zip» v:shapes="_x0000_i1116"> является линейной, а система <shape id="_x0000_i1117" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image139.wmz» o:><img width=«43» height=«25» src=«dopb223989.zip» v:shapes="_x0000_i1117"> – обратной к системе <shape id="_x0000_i1118" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image127.wmz» o:><img width=«36» height=«25» src=«dopb223984.zip» v:shapes="_x0000_i1118">.
Удобства подобных преобразований для анализа и синтеза речевых процессов обусловлены рядом свойств комплексного кепстра. В частности: комплексный спектр последовательностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет комплексный кепстр того же вида; для вычисления комплексного кепстра последовательности с минимальной фазой можно обойтись логарифмом действительной, а не комплексной функции.
Выше было показано, что отрезки речевых сигналов могут быть представлены откликом линейной системы.
Так, в случае звонких звуков возбуждаемый сигнал имеет вид последовательности импульсов. В случае глухих звуков возбуждающий сигнал может быть смоделирован в виде шума.
продолжение
--PAGE_BREAK--Обычно предполагают, что передаточная функция линейной системы, имитирующей голосовой тракт, описывается рациональной функцией Z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голосового тракта сосредоточен вблизи нуля.
В случае звонкого звука комплексный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и импульсного отклика голосового тракта занимают неперекрывающиеся временные сигналы и могут быть извлечены из общего кепстра с помощью линейной системы L.
Механизм восстановления речевого сигнала с помощью кепстров может быть пояснен следующим образом.
Поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосового тракта, на функцию, описывающую тонкую структуру спектра возбуждающего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала.
Логарифм спектра возбуждающего сигнала изменяется с ростом частоты гораздо быстрее логарифма огибающей спектра. Кроме того, он периодичен. В результате обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано по оси времени вблизи нуля, в то время как обратное преобразование от логарифма спектра возбуждающего сигнала является линейчатым, отражающим его периодичность в частотной области.
Для выделения логарифма огибающей спектра из полного спектра логарифма его «взвешивают» окном, открытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра».
В системе анализа-синтеза, основанной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состояние голосового тракта или огибающую спектра речевого процесса.
Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала.
Таким образом, основная идея гомоморфной обработки заключается в разделении или обратной свертке сегмента речевого сигнала с компонентами, представляющими собой импульсную характеристику и источник возбуждения. Это достигается путем линейной фильтрации обратного преобразования Фурье логарифма спектра сигнала (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в которых осуществляется разделение параметров речи на сигнал возбуждения и параметры речевого тракта, позволяют достигнуть малой скорости передачи и дополнительной гибкости при обработке речи ценой усложнения алгоритмов преобразований.
Кодирование с линейным предсказанием (LPC — Linear Predictive Coding). Рекомендации G.728, G.729, G.723 При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. Следует заметить, что буферы, необходимые для хранения потоков данных, увеличивают задержку кодирования.
Первые реализации LPC, такие как LPC-вокодер, были предназначены ля передачи данных на низких скоростях – 2,4 и 4,8 кбит/с. На скорости 2,4 кбит/с обеспечивался приемлемый уровень разборчивости речи, однако качество, естественность и узнаваемость речи недостаточны. Поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов неречевого происхождения, например сигналов модема.
Широко используемый в настоящее время метод кодирования с линейным предсказанием работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия.
Структура синтезатора речи с линейным предсказанием показана на рис. 2.5. Здесь управляющий вход или сигнал возбуждения смоделирован в виде последовательности импульсов на частоте основного тона (для вокализованной речи) или случайный шум (для невокализированной речи).
Комбинированные спектральные составляющие потока от голосовых связок, голосового тракта и звукообразования за счет губ могут быть представлены цифровым фильтром с изменяющимися параметрами и передаточной функцией
<shape id="_x0000_i1119" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image141.wmz» o:><img width=«183» height=«68» src=«dopb223990.zip» v:shapes="_x0000_i1119"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 7)
где <shape id="_x0000_i1120" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image143.wmz» o:><img width=«125» height=«47» src=«dopb223991.zip» v:shapes="_x0000_i1120">
Параметрами, характеризующими голосовой тракт, являются коэффициенты знаменателя и масштабный множитель G.
Преобразуя уравнение (2.7) во временную область, можно получить разностное уравнение для импульсной характеристики <shape id="_x0000_i1121" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image145.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1121">, соответствующей <shape id="_x0000_i1122" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image146.wmz» o:><img width=«42» height=«21» src=«dopb223992.zip» v:shapes="_x0000_i1122">:
<shape id="_x0000_i1123" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image148.wmz» o:><img width=«184» height=«47» src=«dopb223993.zip» v:shapes="_x0000_i1123"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 2. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 8)
Уравнение (2.8) называют разностным уравнением LPC. Оно устанавливает, что текущее значение выходного сигнала <shape id="_x0000_i1124" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image145.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1124">может быть определено суммированием взвешенного текущего входного значения и взвешенной суммы предыдущих выходных выборок. Следовательно, в LPC анализе проблема может быть сформулирована так: даны измерения сигнала<shape id="_x0000_i1125" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image145.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1125">, требуется определить параметры передаточной функции системы <shape id="_x0000_i1126" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image146.wmz» o:><img width=«42» height=«21» src=«dopb223992.zip» v:shapes="_x0000_i1126">.
Линейное предсказание при анализе речевых сигналов обычно используется в двух направлениях. Одно из них – проведение кратковременного спектрального анализа речи. Второе направление – построение систем анализа-синтеза.
Параметры, входящие в функцию предсказания, через формулу (2.7) определяют параметры передаточной функции голосового тракта. Может быть предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (2.7) можно преобразовать в произведение и получить структуру каскадной формы.
Во всех случаях параметры синтезатора непрерывно обновляются при смене анализируемых кадров речи. Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного участка речи к другому. При прямой форме синтеза может возникать ситуация, соответствующая неустойчивому фильтру, хотя исходные значения относились к устойчивому фильтру. В каскадной структуре устойчивость обеспечивается проще.Определение параметров возбуждающего сигнала в системе анализа-синтеза с линейным предсказанием, как правило, основывается на исследовании сигнала ошибки, получаемого пропусканием исходного речевого сигнала через фильтр с характеристикой, обратной той характеристике, которая аппроксимирует передаточную функцию голосового тракта. Полученный сигнал ошибки является аппроксимацией сигнала, возбуждающего речевое колебание. Для определения параметров возбуждающего сигнала можно применить один из известных алгоритмов различения звонкой и глухой речи, а также оценки периода основного тона, например на основе рассмотренного выше корреляционного анализа сигналов во временной области.
Кодирование речи методами анализа через синтез (AbS) При классификации методов кодирования речи на скоростях 4,8… ...16 кбит/с выделяют две основные группы — методы анализа и синтеза (AaS — Analysis-and-Synthesis) и методы анализа через синтез (AbS – Analysis-by-Synthesis). Хотя такие схемы AaS, как RELP, АРС, АТС и SBC успешно работают на скоростях 9,6… 16 кбит/с, при скоростях ниже 9,6 кбит/с они не могут обеспечивать хорошее качество речи. Это объясняется двумя причинами: 1) кодируемая речь не анализируется на предмет эффективности, т.е. не производится коррекция искажений в восстановленной речи; 2) ошибки, накопленные в предыдущих фреймах, не учитываются в момент анализа текущего фрейма и беспрепятственно переходят в следующие фреймы. В схемах AbS, особенно в AbS-LPC, эти факторы, как правило, учтены. В этих схемах используется процедура оптимизации типа «замкнутая петля» для нахождения возбуждающего сигнала, который при возбуждении моделирующего фильтра создает оптимальный речевой сигнал. Это позволяет схемам AbS более успешно работать на скоростях 4,8… .9,6 кбит/с.
Методы AbS подходят не только для кодирования речи, но могут также использоваться для оценки и идентификации. Основная идея AbS такова. Во-первых, допускается, что сигнал можно исследовать и представить в какой-либо форме, например в виде временных или частотных доменов. Затем созданная модель сигнала подвергается оптимизации (подгонке), как показано на рис. 2.6.
Модель имеет несколько параметров, изменение которых приводит к изменению формы моделируемого сигнала. Для нахождения модели сигнала, которая имеет ту же форму, что и модель истинного сигнала, используют процедуры минимизации ошибки. Путем изменении параметров модели находят такой их набор, при котором синтезированный сигнал с минимальной погрешностью совпадает с реальным. Следовательно, когда достигнуто такое совпадение, параметры модели принимаются за параметры истинного сигнала.
Базовая структура системы кодирования AbS-LPC представлена на рис. 2.7. В этой модели есть три компонента, которые можно изменять, добиваясь максимального подобия синтезированного сигнала с исходным:
1) нестационарный фильтр;
2) возбуждающий сигнал;
3) процедура минимизации, основанная на восприятии.
Так как эта модель требует частого обновления параметров для получения хорошего совпадения с исходным сигналом, процедура анализа выполняется поблочно, т.е. входной речевой сигнал разбивается на блоки выборок. Длина анализируемых блоков (фреймов) и периодичность их обновления определяют скорость передачи (емкость) схемы кодирования. Алгоритм работы AbS-LPC следующий:
1. Инициализировать LPC и тональный фильтры (нестационарные фильтры), т.е. установить уровень нуля или минимального случайного шума;
2. Фрейм выборок речи заносится в буфер и на основании LPC-анализа вычисляется набор LPC-коэффициентов;
3. Используя вычисленные LPC-коэффициенты, формируется инверсный LPC-фильтр для вычисления первого восстановленного после квантования остатка. Если для поиска подходящего тона используется «замкнутая петля», надобность в этом шаге отпадает.
4. Так как LPC фрейм обычно слишком велик для эффективного анализа, при определении возбуждения фрейм разделяется на целое число подфреймов;
5. Для каждого подфрейма:
а) рассчитываются параметры тонального фильтра (долгосрочного предсказателя), такие, как задержка и связанный с ней коэффициент масштабирования;
б) тональный фильтра вместе с LPC-фильтром образуют каскадный фильтр, с помощью которого определяется наилучшее вторичное возбуждение, т.е. такое, которое минимизирует разницу между синтезированной и исходной речью.
6. Окончательно синтезированная речь получается при пропускании оптимального вторичного возбуждения через каскадный фильтр, параметры которого остались от синтеза предыдущего подфрейма.
7. Повторение шагов 2-6 для следующего фрейма последовательности.
Таким образом, и на стороне кодера, и на стороне декодера синтезируется речь, что необходимо для обновления содержимого памяти нестационарных фильтров. В результате и кодер, и декодер имеют идентичное содержание памяти. В противном случае для общей синхронности содержимое памяти пришлось бы передавать на декодер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и декодере, когда средства передачи несовершенны, например, в системах подвижной радиосвязи, где очень высока доля ошибок.
Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связано с тем, что в действительности процедуры последовательны, т.е. сначала вычисляются параметры фильтра, которые фиксируются, и только затем следует вычисление методом «анализа через синтез» вторичного возбуждения. Хотя вторичное возбуждение выполняется по исходному сигналу, оно ограничено оптимальностью используемых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, поэтому ее обычно разбивают на последовательные этапы.
Главное отличие классических вокодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах возбуждение разделяется на вокализованные (импульсное возбуждение) и невокализованные (возбуждение случайным шумом), что является первопричиной точности модели. В AbS-LPC такое деление не явно, и поэтому возбуждающий сигнал может носить любой характер — от псевдоимпульсного до шумоподобного, что позволяет синтезировать речь более высокого качества.
Векторное квантование и кодовые книги Когда набор значений амплитуд, дискретизированных по времени, квантуется совместно как единичный вектор, такой процесс называется векторным квантованием (VQ – vector quantisation), известный также как блочное квантование.
Будем считать, что <shape id="_x0000_i1127" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image150.wmz» o:><img width=«131» height=«25» src=«dopb223994.zip» v:shapes="_x0000_i1127"> N-мерный вектор с действительными значениями («т» означает транспонирование); <shape id="_x0000_i1128" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image152.wmz» o:><img width=«87» height=«25» src=«dopb223995.zip» v:shapes="_x0000_i1128">– случайным образом меняющийся компонент с непрерывной амплитудой. При векторном квантовании вектору <shape id="_x0000_i1129" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image154.wmz» o:><img width=«15» height=«17» src=«dopb223996.zip» v:shapes="_x0000_i1129"> ставится в соответствие другой N-размерный вектор <shape id="_x0000_i1130" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image156.wmz» o:><img width=«14» height=«17» src=«dopb223997.zip» v:shapes="_x0000_i1130">, имеющий действительные значения и дискретную амплитуду. Таким образом, <shape id="_x0000_i1131" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image154.wmz» o:><img width=«15» height=«17» src=«dopb223996.zip» v:shapes="_x0000_i1131"> квантуется как <shape id="_x0000_i1132" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image156.wmz» o:><img width=«14» height=«17» src=«dopb223997.zip» v:shapes="_x0000_i1132">. Другими словами, <shape id="_x0000_i1133" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image156.wmz» o:><img width=«14» height=«17» src=«dopb223997.zip» v:shapes="_x0000_i1133">используется для представления <shape id="_x0000_i1134" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image154.wmz» o:><img width=«15» height=«17» src=«dopb223996.zip» v:shapes="_x0000_i1134">.
Обычно <shape id="_x0000_i1135" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image156.wmz» o:><img width=«14» height=«17» src=«dopb223997.zip» v:shapes="_x0000_i1135"> выбирается из конечного набора значений <shape id="_x0000_i1136" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image158.wmz» o:><img width=«248» height=«30» src=«dopb223998.zip» v:shapes="_x0000_i1136">, где <shape id="_x0000_i1137" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image160.wmz» o:><img width=«14» height=«17» src=«dopb223999.zip» v:shapes="_x0000_i1137"> – размер кодовой книги, а <shape id="_x0000_i1138" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image162.wmz» o:><img width=«15» height=«25» src=«dopb224000.zip» v:shapes="_x0000_i1138"> – набор векторов кодовой книги. Набор Y называется кодовой книгой или шаблоном.
Размер кодовой книги можно считать равным числу уровней скалярных квантователей. Для создания подобной кодовой книги N-размерное пространство разделяется на L областей или ячеек <shape id="_x0000_i1139" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image164.wmz» o:><img width=«79» height=«25» src=«dopb224001.zip» v:shapes="_x0000_i1139">, и вектор <shape id="_x0000_i1140" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image162.wmz» o:><img width=«15» height=«25» src=«dopb224000.zip» v:shapes="_x0000_i1140"> однозначно связывается с ячейкой <shape id="_x0000_i1141" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image166.wmz» o:><img width=«18» height=«25» src=«dopb224002.zip» v:shapes="_x0000_i1141">. Квантователь обозначается вектором кодовой книги <shape id="_x0000_i1142" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image162.wmz» o:><img width=«15» height=«25» src=«dopb224000.zip» v:shapes="_x0000_i1142">, если <shape id="_x0000_i1143" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image154.wmz» o:><img width=«15» height=«17» src=«dopb223996.zip» v:shapes="_x0000_i1143"> находится в <shape id="_x0000_i1144" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image166.wmz» o:><img width=«18» height=«25» src=«dopb224002.zip» v:shapes="_x0000_i1144">:
<shape id="_x0000_i1145" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image168.wmz» o:><img width=«63» height=«25» src=«dopb224003.zip» v:shapes="_x0000_i1145">, если <shape id="_x0000_i1146" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image170.wmz» o:><img width=«45» height=«25» src=«dopb224004.zip» v:shapes="_x0000_i1146">.
Процесс создания кодовой книги известен также как «обучение» или «настройка» кодовой книги. В качестве примера на рис. 2.9 иллюстрируется разделение двумерного пространства (N = 2) для целей векторного квантования. Область, обведенная жирной линией, — ячейка <shape id="_x0000_i1147" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image166.wmz» o:><img width=«18» height=«25» src=«dopb224002.zip» v:shapes="_x0000_i1147">. При векторном квантовании любой входной вектор <shape id="_x0000_i1148" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image154.wmz» o:><img width=«15» height=«17» src=«dopb223996.zip» v:shapes="_x0000_i1148">, лежащий в ячейке <shape id="_x0000_i1149" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image166.wmz» o:><img width=«18» height=«25» src=«dopb224002.zip» v:shapes="_x0000_i1149">, квантуется как <shape id="_x0000_i1150" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image162.wmz» o:><img width=«15» height=«25» src=«dopb224000.zip» v:shapes="_x0000_i1150">. Другие векторы кодовой книги, соответствующие другим ячейкам, показаны точками.
Если размер вектора <shape id="_x0000_i1151" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image172.wmz» o:><img width=«39» height=«18» src=«dopb224005.zip» v:shapes="_x0000_i1151">, векторное квантование трансформируется в скалярное квантование. Скалярное квантование имеет особое свойство, заключающееся в том, что хотя ячейки могут иметь разные размеры (размеры ступеней), все они имеют одинаковую форму. Однако при векторном квантовании ячейки в двух измерениях могут иметь разные формы, что дает векторному квантованию преимущество над скалярным квантованием. MACROBUTTON MTEditEquationSection2 Equation Chapter (Next) Section 3 SEQ MTEqn \r \h \* MERGEFORMAT SEQ MTSec \r 3 \h \* MERGEFORMAT SEQ MTChap \h \* MERGEFORMAT
Гибридные кодеры
Чтобы избавиться от недостатков кодеров формы и вокодеров, был разработан гибридный метод кодирования, объединяющий преимущества обоих методов. По виду анализа гибридные кодеры подразделяются на два класса: с частотным разделением и временным разделением.
Гибридные кодеры с частотным разбиением Главная концепция кодирования с частотным разбиением состоит в разделении речевого спектра на частотные полосы или компоненты. Соответственно могут использоваться либо набор фильтров, либо блок-преобразователь. После кодирования и декодирования эти составляющие используются для точного воспроизведения модели входного сигнала путем суммирования сигналов, полученных на выходе фильтров, или инверсных значений, полученных после преобразования. Главное допущение при кодировании с частотным разбиением состоит в том, что сигнал, подвергаемый кодированию, очень медленно изменяется во времени и может быть описан мгновенным спектром. Это связано с тем, что в большинстве систем, а особенно в системах реального времени, в текущий момент доступен только кратковременный сегмент входного сигнала.
В случае использования набора фильтров частота ω фиксирована, так что <shape id="_x0000_i1152" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image174.wmz» o:><img width=«47» height=«25» src=«dopb224006.zip» v:shapes="_x0000_i1152">, а сигнал частотного домена <shape id="_x0000_i1153" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image176.wmz» o:><img width=«56» height=«25» src=«dopb224007.zip» v:shapes="_x0000_i1153"> представляет собой сигнал на выходе постоянного во времени линейного фильтра с импульсной характеристикой <shape id="_x0000_i1154" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image178.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1154">, возбуждаемого модулированным сигналом <shape id="_x0000_i1155" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image179.wmz» o:><img width=«66» height=«25» src=«dopb224008.zip» v:shapes="_x0000_i1155">:
продолжение
--PAGE_BREAK-- <shape id="_x0000_i1156" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image181.wmz» o:><img width=«113» height=«45» src=«dopb224009.zip» v:shapes="_x0000_i1156"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 1)
где <shape id="_x0000_i1157" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image178.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1157"> определяет ширину полосы речевого сигнала <shape id="_x0000_i1158" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image183.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1158"> вокруг центральной частоты <shape id="_x0000_i1159" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image184.wmz» o:><img width=«20» height=«25» src=«dopb224010.zip» v:shapes="_x0000_i1159"> и является импульсной характеристикой анализирующего фильтра; знак <shape id="_x0000_i1160" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image186.wmz» o:><img width=«17» height=«18» src=«dopb223972.zip» v:shapes="_x0000_i1160"> означает свертку функций.
При использовании блока, реализующего преобразование Фурье, временной индекс h фиксируется на значении h = ho, a <shape id="_x0000_i1161" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image187.wmz» o:><img width=«56» height=«27» src=«dopb224011.zip» v:shapes="_x0000_i1161"> представляет собой обычное преобразование Фурье взвешенной последовательности <shape id="_x0000_i1162" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image189.wmz» o:><img width=«96» height=«25» src=«dopb224012.zip» v:shapes="_x0000_i1162">:
<shape id="_x0000_i1163" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image191.wmz» o:><img width=«187» height=«27» src=«dopb224013.zip» v:shapes="_x0000_i1163"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 2)
где <shape id="_x0000_i1164" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image193.wmz» o:><img width=«30» height=«21» src=«dopb224014.zip» v:shapes="_x0000_i1164">– преобразование Фурье.
Здесь <shape id="_x0000_i1165" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image195.wmz» o:><img width=«61» height=«25» src=«dopb224015.zip» v:shapes="_x0000_i1165"> определяет отрезок времени анализа относительно момента времени h = ho и является «окном анализа» <shape id="_x0000_i1166" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image197.wmz» o:><img width=«66» height=«25» src=«dopb224016.zip» v:shapes="_x0000_i1166">.
Уравнение синтезирующего набора фильтров
<shape id="_x0000_i1167" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image199.wmz» o:><img width=«203» height=«49» src=«dopb224017.zip» v:shapes="_x0000_i1167"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 3)
может быть представлено как интеграл (или сумма) компонентов – кратковременных спектров <shape id="_x0000_i1168" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image201.wmz» o:><img width=«60» height=«25» src=«dopb224018.zip» v:shapes="_x0000_i1168"> с несущими частотами <shape id="_x0000_i1169" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image203.wmz» o:><img width=«20» height=«25» src=«dopb224010.zip» v:shapes="_x0000_i1169">.
Для синтеза с помощью блока преобразования уравнение выглядит следующим образом:
<shape id="_x0000_i1170" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image204.wmz» o:><img width=«207» height=«45» src=«dopb224019.zip» v:shapes="_x0000_i1170"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 4)
Его можно интерпретировать как сумму инверсных преобразований Фурье, примененных к временным сигналам <shape id="_x0000_i1171" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image206.wmz» o:><img width=«83» height=«21» src=«dopb224020.zip» v:shapes="_x0000_i1171">.
CELP (Code Excited Linear Prediction) Метод кодирования CELP основан на линейной авторегрессионной модели процесса формирования и восприятия речи и входит в группу методов анализа через синтез, реализующих современные и эффективные алгоритмы информационного сжатия речевых сигналов. Алгоритмы данного класса занимают промежуточное положение между кодерами формы сигнала, в которых сохраняется форма колебания речевого сигнала в процессе его дискретизации и квантования, и параметрическими вокодерами, основанными на процедурах оценки и кодирования небольшого числа параметров речи, объединяя преимущества каждого из них.
Линейная авторегрессионная модель процесса формирования речевых сигналов с локально постоянными на интервалах 10… .30 мс параметрами получила в настоящее время наибольшее распространение. Для этой модели
<shape id="_x0000_i1172" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image208.wmz» o:><img width=«199» height=«45» src=«dopb224021.zip» v:shapes="_x0000_i1172"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 5)
где М — порядок модели; <shape id="_x0000_i1173" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image210.wmz» o:><img width=«35» height=«21» src=«dopb223924.zip» v:shapes="_x0000_i1173">– последовательность отсчетов речевого сигнала; <shape id="_x0000_i1174" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image211.wmz» o:><img width=«36» height=«21» src=«dopb224022.zip» v:shapes="_x0000_i1174">– коэффициенты линейного предсказания, характеризующие свойства голосового тракта; <shape id="_x0000_i1175" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image213.wmz» o:><img width=«34» height=«21» src=«dopb224023.zip» v:shapes="_x0000_i1175">– порождающая последовательность или сигнал возбуждения голосового тракта.
Авторегрессионная модель речевого сигнала описывает его с достаточно высокой степенью точности и позволяет применять развитый математический аппарат линейного предсказания. При этом обеспечивается более высокое качество декодированной речи, устойчивость к входному акустическому шуму и ошибкам в канале связи по сравнению с системами с иными принципами кодирования.
В рамках данной модели наиболее перспективными методами кодирования считаются методы «анализа через синтез» с использованием многоимпульсного возбуждения. Новизна многоимпульсного возбуждения заключается в том, что в сигнале остатка линейного предсказания выбираются такие его значения, которые наиболее важны для повышения качества синтезированной речи. При этом используемая в процедуре анализа через синтез схема кодирования, помимо учета ошибок квантования, включает критерии субъективной оценки качества речевого сигнала, что обеспечивает естественное звучание синтезированной речи.
При многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и положение этих импульсов определяются на покадровой основе (кадр за кадром). Основным преимуществом многоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не требуется знаний ни о вокализованности данного сегмента, ни о периоде основного тона.
Методы анализа через синтез используют синтезатор (декодер) речевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи параметров речи, проводимой в соответствии с некоторым критерием рассогласования между исходным и декодированным сигналами. Для учета специфики слухового восприятия в качестве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка
<shape id="_x0000_i1176" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image215.wmz» o:><img width=«205» height=«49» src=«dopb224024.zip» v:shapes="_x0000_i1176"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 6)
где <shape id="_x0000_i1177" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image217.wmz» o:><img width=«37» height=«21» src=«dopb224025.zip» v:shapes="_x0000_i1177"> и <shape id="_x0000_i1178" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image219.wmz» o:><img width=«43» height=«25» src=«dopb224026.zip» v:shapes="_x0000_i1178"> – преобразование Фурье исходного и синтезированного речевых сигналов; <shape id="_x0000_i1179" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image221.wmz» o:><img width=«39» height=«21» src=«dopb224027.zip» v:shapes="_x0000_i1179">– весовая функция. Принимая во внимание важность для восприятия речи не только формант, но и межформантных областей, для алгоритмов анализа речи через синтез в качестве эталонной была предложена весовая функция следующего вида:
<shape id="_x0000_i1180" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image223.wmz» o:><img width=«144» height=«25» src=«dopb224028.zip» v:shapes="_x0000_i1180"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 7)
где <shape id="_x0000_i1181" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image225.wmz» o:><img width=«45» height=«25» src=«dopb224029.zip» v:shapes="_x0000_i1181"> – передаточная характеристика синтезирующего фильтра; γ – параметр, регулирующий энергию ошибки или шум квантования. Фактически при таком окне взвешивания подчеркивается ошибка в межформантных областях и тем самым обеспечивается более равномерное по частоте распределение отношения мощности полезного сигнала к мощности ошибки кодирования.
В алгоритмах кодирования с «анализом через синтез» повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности x(h), которая осуществляет возбуждение синтезирующего фильтра <shape id="_x0000_i1182" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image227.wmz» o:><img width=«45» height=«25» src=«dopb224029.zip» v:shapes="_x0000_i1182"> линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи
<shape id="_x0000_i1183" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image228.wmz» o:><img width=«180» height=«51» src=«dopb224030.zip» v:shapes="_x0000_i1183"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 8)
Для этой цели применяется также дополнительный фильтр с характеристикой
<shape id="_x0000_i1184" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image230.wmz» o:><img width=«140» height=«27» src=«dopb224031.zip» v:shapes="_x0000_i1184"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 3. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 9)
с коэффициентом предсказания <shape id="_x0000_i1185" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image232.wmz» o:><img width=«21» height=«25» src=«dopb224032.zip» v:shapes="_x0000_i1185"> и задержкой на период основного тона T. Фильтр выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков.
В зависимости от способа описания сигнала x(h), поступающего на вход фильтра (3.9), можно выделить алгоритмы кодирования:
с возбуждением прореженной последовательности импульсов — MPLP (Multi Pulses Linear Prediction);
с самовозбуждением — SELP (Self Excited Linear Prediction);
с кодовым возбуждением — CELP
Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество кодирования речевого сигнала, в том числе и при наличии входных акустических помех.
CELP наиболее эффективно применяется при передаче речевого сигала в диапазоне скоростей от 4 до 6 кбит/с.
По существу, в алгоритме CELP производится векторное квантование последовательности <shape id="_x0000_i1186" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image234.wmz» o:><img width=«34» height=«21» src=«dopb224023.zip» v:shapes="_x0000_i1186">, т.е. позиции выборок и их амплитуды в сигнале многоимпульсного возбуждения оптимизируются одновременно. При том отрезок (сегмент) сигнала возбуждения выбирается из предварительно формированной постоянной совокупности – кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (3.9) и (3.8).
Поиск оптимальных значений <shape id="_x0000_i1187" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image232.wmz» o:><img width=«21» height=«25» src=«dopb224032.zip» v:shapes="_x0000_i1187"> и Т синтезатора основного тона, коэффициента усиления и номера элемента кодовой книги осуществляется посредством «анализа через синтез». В канал связи передаются номер (индекс) элемента кодовой книги с соответствующим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракта.
Являясь одной из самых распространенных, схема с линейным предсказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяющимися во времени параметрами для выделения грубой и точной спектральной информации. Возбуждение выполняется путем перебора всех векторов из возбуждающей кодовой книги. Векторная последовательность, обеспечивающая минимальную взвешенную ошибку, считается оптимальным возбуждением. Процедура AbS в CELP требует больших вычислительных ресурсов, а основная кодовая книга является результатом очень большой исследовательской работы. Хотя CELP является сложным методом, он способен синтезировать речь с высоким качеством даже на низких скоростях. Вариант кодирования CELP выбран для многих систем голосовой связи.
Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базируются многие стандарты. Испытания показывают его приемлемость и для высоких скоростей. Стандарт для скорости 16 кбит/с с малой задержкой (LD-CELP — Low-Delay CELP) будет рассмотрен ниже.
Рекомендации G.723.1 и G.729 Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоростях для компрессии речевых или других аудиосигналов в средствах мультимедиа. В кодере, реализующем рекомендации G.723.1, принципиальным приложением является низкоскоростная видеотелефония как часть общего семейства стандартов Н.324.
Кодер обеспечивает работу на двух скоростях — 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и более низкая скорость обеспечивает хорошее качество и предоставляет разработчикам систем связи дополнительные возможности. И кодер и декодер должны обязательно поддерживать обе скорости. Существует возможность переключения скоростей. Возможно также изменение рабочей скорости с использованием прерывистой передачи и заполнение шумом пауз.
Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограниченной полосе. Музыка и другие аудиосигналы также могут быть подвергнуты компрессии с использованием этого кодера, однако, не с таким же высоким качеством, как речь.
Кодер G .723.1 преобразует речь или другие аудиосигналы во фреймы длительностью 30 мс. Кроме того, существует возможность просмотра фреймов на скорости 7,5 мс, что приводит к общей алгоритмической задержке 37,5 мс. Дополнительные задержки возникают из-за:
времени, затрачиваемого на обработку данных в кодере и декодере;
времени передачи по линии связи;
дополнительной буферной задержки протокола мультиплексирования.
Кодер G.723.1 предназначен для работы с цифровыми сигналами после предварительной фильтрации полосы аналогового телефонного канала (рекомендации G.712), дискретизации с частотой 8 кГц и преобразования в 16-битную линейную ИКМ последовательность для передачи на вход кодера. Выходной сигнал декодера преобразуется обратно в аналоговый сигнал аналогичным образом. Другие характеристики входа/выхода такие же, как и определенные рекомендациями G.711 для 64-битной ИКМ. Перед кодированием данные должны быть преобразованы в 16-битную ИКМ последовательность или в соответствующий формат после декодирования из 16-битной ИКМ.
Кодер, основанный на принципах кодирования методом «анализ через синтез» с линейным предсказанием, минимизирует взвешенный сигнал ошибки, работает с блоками (фреймами) по 240 выборок каждый, что в частоте дискретизации 8 кГц эквивалентно длительности 30 мс. Каждый фрейм проходит через фильтр верхних частот для удаления постоянной составляющей, а затем разделяется на четыре субфрейма по 60 выборок в каждом. Для каждого субфрейма используется фильтр десятого порядка кодера с линейным предсказанием. Для последнего субфрейма коэффициенты LPC-фильтра квантуются с использованием прогнозирующего квантизатора вектора разбиения (PSVQ). Квантованные LPC-коэффициенты используются для создания кратковременного взвешивающего фильтра, который применяется для фильтрации всего фрейма и для получения взвешенной оценки речевого сигнала. На основе этой оценки для каждых двух субфреймов (120 выборок) вычисляется период основного тона <shape id="_x0000_i1188" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image235.wmz» o:><img width=«23» height=«25» src=«dopb224033.zip» v:shapes="_x0000_i1188">. Оценка тона представляется блоками по 120 выборок. Период основного тона лежит в диапазоне от 18 до 142 выборок.
С помощью вычисленной заранее оценки периода тона создается фильтр формы гармонического шума. Комбинация из фильтра синтеза LPC, фильтра взвешивания формант, фильтра формы гармонического шума используется для синтеза импульсной характеристики, необходимой для дальнейших вычислений.
Оценки периода основного тона <shape id="_x0000_i1189" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image235.wmz» o:><img width=«23» height=«25» src=«dopb224033.zip» v:shapes="_x0000_i1189"> и импульсного отклика используются при работе предсказателя тона пятого порядка. Период тона вычисляется как приращение относительной оценки периода основного тона. На декодер передаются тоновый период и разностные величины. На следующем этапе аппроксимируются непериодические составляющие возбуждения. Для высокой скорости используется многоимпульсное возбуждение с квантованием и алгоритмом максимального правдоподобия (MP-MLQ), а для низких скоростей – алгебраическое кодовое возбуждение.
Рекомендации ITU-T G.729 содержат описание алгоритма кодирования речевых сигналов на скорости 8 кбит/с с использованием алгебраического линейного предсказания с кодовым возбуждением с сопряженной структурой (CS-ACELP).
Подобный кодер создан для работы с цифровыми сигналами, полученными после предварительной обработки аналогового входного сигнала фильтром низкой частоты, дискретизации с частотой 8 кГц и дальнейшем преобразованием в линейную ИКМ для подачи на вход кодера. Выходной сигнал декодера конвертируется обратно в аналоговый сигнал подобным же образом. Другие характеристики входа/выхода определяются аналогично рекомендациями G.711 для ИКМ последовательностей со скоростью 64 кбит/с. После декодирования данные должны быть преобразованы из 16-битовой линейной ИКМ в требуемый формат.
Кодер CS-ACELP основан на модели с линейным предсказанием с кодовым возбуждением (CELP) и работает с фреймами речи по 10 мс, соответствующих 80 выборкам. Каждый фрейм речевого сигнала длительностью 10 мс анализируется для выделения параметров CELP-модели (коэффициенты фильтра линейного предсказания, индексы адаптивной и фиксированной кодовых книг и коэффициенты усиления). Эти параметры кодируются и передаются на приемную сторону. Распределение бит параметров кодера показано в табл. 3.1.
Таблица 3.1
Распределение бит для алгоритма CS-ACELP на скорости 8 кбит/с (фреймы по 10 мс)
продолжение
--PAGE_BREAK--На стороне декодера эти параметры используются для восстановления параметров возбуждения и фильтра синтеза. Как показано на рис. 3.3, речь восстанавливается при фильтрации этого возбуждения фильтром кратковременного синтеза, который основан на фильтре линейного предсказания десятого порядка. Долговременный фильтр (или фильтр синтеза тона) выполняется с использованием адаптивной кодовой книги. После синтеза речи происходит дополнительное сглаживание в постфильтре.
Входной сигнал поступает на фильтр высоких частот и масштабируется в блоке предварительной обработки, после чего подвергается последующему анализу. Анализ с линейным предсказанием (LP-анализ) выполняется один раз для фрейма длительностью 10 мс с целью вычисления коэффициентов фильтра линейного предсказания, которые затем преобразуются в пары линейного спектра (Line Spectrum Pairs, LSP) и квантуются (18 бит) с использованием двухэтапного векторного квантования с предсказанием.
Сигнал возбуждения выбирается с использованием поисковой процедуры «анализ через синтез», при которой ошибка между исходной и восстанавливаемой речью минимизируется в соответствии с измерением взвешенных искажений. Это выполняется путем фильтрации сигнала ошибки фильтром взвешивания, коэффициенты которого извлечены из неквантованного LP-фильтра.
Параметры возбуждения (параметры фиксированной и адаптивной кодовых книг) определены для субфрейма длительностью 5 мс (40 выборок). Коэффициенты квантованного и неквантованного фильтра с линейным предсказанием используются для второго субфрейма, в то время как в первом субфрейме используются интерполированные коэффициенты LP-фильтра.
Задержка основного тона оценивается один раз для фрейма длиной 10 мс на основе взвешенного речевого сигнала. Затем для каждого субфрейма повторяются следующие операции. Искомый сигнал <shape id="_x0000_i1190" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image237.wmz» o:><img width=«34» height=«21» src=«dopb224034.zip» v:shapes="_x0000_i1190"> вычисляется при фильтрации остаточного линейного предсказания во взвешивающем фильтре синтеза <shape id="_x0000_i1191" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image239.wmz» o:><img width=«79» height=«25» src=«dopb224035.zip» v:shapes="_x0000_i1191">. При фильтрации ошибки начальные состояния этих фильтров обновляются. Это эквивалентно результату выделения нулевого входного отклика взвешивающего фильтра синтеза из взвешенного речевого сигнала. Вычисляется импульсная характеристика <shape id="_x0000_i1192" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image241.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1192"> взвешивающего фильтра синтеза, после чего выполняется анализ тона для нахождения задержки адаптивной кодовой книги путем анализа значения задержки вблизи основного тона с использованием искомого сигнала <shape id="_x0000_i1193" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image237.wmz» o:><img width=«34» height=«21» src=«dopb224034.zip» v:shapes="_x0000_i1193"> и импульсной характеристики <shape id="_x0000_i1194" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image241.wmz» o:><img width=«33» height=«21» src=«dopb223970.zip» v:shapes="_x0000_i1194">. Задержка тона кодируется восемью битами в первом субфрейме и пятью битами во втором субфрейме. Искомый сигнал <shape id="_x0000_i1195" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image237.wmz» o:><img width=«34» height=«21» src=«dopb224034.zip» v:shapes="_x0000_i1195"> используется при поиске фиксированной кодовой книги для нахождения оптимального возбуждения. Семнадцатибитовая алгебраическая кодовая книга используется для возбуждения фиксированной кодовой книги. Коэффициенты усиления вкладов адаптивной и фиксированной кодовых книг — это векторы, квантованные семью битами.
Индексы параметров кодовых книг выделяются из принятого потока бит и декодируются для получения следующих параметров кодера, соответствующих речевому фрейму длиной 10 мс: LP-коэффициенты (коэффициенты линейного предсказания), две частичные задержки тона, два вектора фиксированной кодовой книги и два набора коэффициентов адаптивной и фиксированной кодовых книг. Коэффициенты LSP интерполируются и преобразуются в коэффициенты LP-фильтра для каждого субфрейма. Для каждого субфрейма выполняются следующие шаги:
восстанавливается возбуждение путем добавления векторов адаптивной и фиксированной кодовых книг с соответствующими им коэффициентами усиления;
восстанавливается речь путем пропускания через фильтр LP-синтеза;
восстанавливаемый речевой сигнал пропускается через ступень постобработки, которая включает адаптивный постфильтр, состоящий из долговременного и кратковременного постфильтров синтеза, фильтр высоких частот и операцию масштабирования.
Кодер кодирует речь и другие аудиосигналы по фреймам длительностью 10 мс. В результате осуществляется задержка 5 мс, что приводит в результате к общей алгоритмической задержке 15 мс. Все дополнительные задержки при практическом исполнении такого кодера обусловлены следующими причинами:
временем обработки, необходимым для операции кодирования и декодирования;
временем передачи по линиям связи;
задержкой мультиплексирования, когда аудиоданные объединяются с другими данными.
Таким образом, рекомендация G.729 предусматривает фреймы возбуждения по 5 мс и формирует четыре импульса. Фрейм из 40 выборок разделяется на четыре части. Первые три имеют восемь возможных позиций для импульсов, четвертая — шестнадцать. Из каждой части выбирается по одному импульсу. В результате образуется четырехимпульсный ACELP возбуждения кодовой страницы (табл. 3.2).
Таблица 3.2
Параметры кодеров
Параметры кодера
Кодер
G.729
G.729A
G.723.1
Скорость бит, кбит/с
8
8
5,3…6,3
Размер фрейма, мс
10
10
30
Размер подфрейма, мс
5
5
7,5
Алгебраическая задержка, мс
15
15
37,5
Быстродействие, млн. оп./с
20
10
14…20
Объем ПЗУ, байт
5,2 К
4 К
4,4 К
Качество
Хорошее
Хорошее
Хорошее
Для режима 5,3 кбит/с рекомендация G.723.1 предусматривает фреймы возбуждения длительностью 7,5 мс и также использует четырехимпульсное ACELP-возбуждение кодовой страницы. Для скорости 6,3 кбит/с используется технология многоимпульсного возбуждения с квантованием и алгоритмом максимального правдоподобия (MP-MLQ). В этом случае позиции фреймов группируются в подгруппы с четными и нечетными номерами. Для определенного номера импульса из четной последовательности (пятый или шестой в зависимости от того, является ли сам фрейм четным или нечетным) используется последовательный многоимпульсный поиск. Похожий поиск повторяется для подфреймов с нечетными номерами. Для возбуждения выбирается группа с минимальными общими искажениями.
На стороне декодера информация кодера с линейным предсказанием (LPC) и информация адаптивной и фиксированной кодовой книг демультиплексируется и используется для реконструкции выходного сигнала. Для этих целей используется адаптивный постфильтр. В случае кодера G.723.1 сигнал возбуждения перед прохождением через фильтр синтеза LPC пропускается через LT (long-term — долговременный) постфильтр и ST (short-term — кратковременный) постфильтр.
LD-CELP (Long-Delay CELP). Рекомендация G.728 В Рекомендации содержится описание алгоритма кодирования речевых сигналов на скорости 16 кбит/с с помощью линейного предсказания с кодированием сигнала возбуждения с малой задержкой. Алгоритм LD-CELP описывает работу кодера и декодера.
В алгоритме LD-CELP сохранена суть метода CELP, представляющего собой метод «анализа через синтез» путем поиска сигналов в кодовой книге. Для получения алгоритмической задержки порядка 0,625 мс используется адаптация предсказателей и уровней сигнала возбуждения по выходу. Передается только индекс сигнала возбуждения, найденный в кодовой книге. Обновление коэффициентов предсказания производится с помощью LPC-анализа ранее квантованной речи. Уровень возбуждения обновляется с помощью информации, содержащейся в ранее квантованном сигнале возбуждения. Размер блока для адаптации вектора сигнала возбуждения и уровня составляет всего лишь пять отсчетов. Обновление взвешивающего фильтра, учитывающего восприятие, производится с помощью LPC-анализа неквантованной речи.
После выполнения преобразования сигнала ИКМ по закону А или μ в линейный ИКМ-сигнал входной сигнал делится на блоки по пять последовательных отсчетов. Для каждого входного блока кодер пропускает каждый из 1024 векторов кодовой книги (хранящихся в кодовой книге сигнала возбуждения) через устройство масштабирования уровня сигнала возбуждения и синтезирующий фильтр. Из полученных в результате пропускания всех 1024 векторов-кандидатов квантованного сигнала кодер определяет один, минимизирующий величину взвешенной по частоте среднеквадратической ошибки относительно вектора входного сигнала. 10-битовый индекс, соответствующий наилучшему вектору в кодовой книге, который соответствует наилучшему вектору-кандидату квантованного сигнала, передается в декодер. На следующем этапе для обновления памяти фильтра и подготовки к кодированию следующего вектора сигнала наилучший кодовый вектор проходит через устройство масштабирования уровня сигнала возбуждения и синтезирующий фильтр. Коэффициенты синтезирующего фильтра и уровень сигнала возбуждения периодически обновляются путем адаптации по выходу, базирующейся на квантованном сигнале, масштабированном по уровню, и сигнале возбуждения.
Индекс в книге векторного квантования (VQ) возбуждения представляет собой единственную информацию, которая в явной форме передается из кодера в декодер. Три других типа параметров: уровень сигналa возбуждения, коэффициенты синтезирующего фильтра и коэффициенты взвешивающего фильтра, учитывающего восприятие, обновляются периодически. Эти параметры получаются путем адаптации по выходу из сигналов, которые появляются до текущего вектора сигнала. Уровень сигнала возбуждения обновляется для каждого вектора, а коэффициенты взвешивающего фильтра, учитывающего восприятие, и коэффициенты синтезирующего фильтра обновляются для каждых четырех векторов (т.е. для каждых 20 отсчетов или для периода обновления длительностью 2,5 мс). Следует отметить, что хотя последовательность обработки в алгоритме имеет цикл адаптации, равный четырем векторам (20 отсчетов), емкость основного буфера составляет только один вектор (пять отсчетов). Такая малая емкость буфера позволяет получить задержку при передаче в одном направлении менее 2 мс.
Многополосное кодирование и кодирование с адаптивным преобразованием Среди методов кодирования с частотным разбиением известны две технологии: многополосное кодирование — SBC (Sub-Band Coding) и кодирование с адаптивным преобразованием — АТС (Adaptive Transform Coding). Основной принцип обеих схем — разделение спектра входного на несколько частотных поддиапазонов (полос), которые затем кодируются отдельно. В SBC набор фильтров выполнен так, что разбивает входной речевой сигнал обычно на 4-16 широких частотных поддиапазонов (широкополосный анализ). В АТС для обеспечения более точных частотных показателей число поддиапазонов увеличено до 128-256 (узкополосный анализ).
Многополосное кодирование обычно рассматривается как метод кодирования формы сигнала, который использует широкополосный кратковременный анализ и синтез. После разделения речевого спектра на несколько поддиапазонов низшая частота каждого из них приводится к нулю, затем поддиапазон дискретизируется в соответствии с частотой Найквиста (минимальной частотой дискретизации), квантуется, кодируется, мультиплексируется и передается. В приемнике поддиапазоны демультиплексируются, декодируются и переводятся обратно в их частотные позиции. Результирующие сигналы поддиапазонов затем складываются для получения аппроксимированного исходного речевого сигнала.
Глава 2 IP-телефония Основные стандарты кодирования речи, применяемые в 1Р-телефонии, приведены в табл. 4.1.
Таблица 4.1
Стандарты ITU-T по кодированию речи, применяемые в IP-телефонии
Стандарт
Описание
G.711
Импульсно-кодовая модуляция 64 кбит/с (ИКМ) (А-закон и μ-закон)
G.722
Широкополосные кодеры, работающие на скорости 64, 56 или 48 кбит/с
G.726
Рекомендации по кодерам АДИКМ, которые охватывают G721 и G723
G.727
АДИКМ, работающие на скоростях 40, 32, 24 или 16 кбит/с
G.728
Вокодеры с линейным предсказанием, с кодовым возбуждением, с низкой задержкой, скорость 16 кбит/с (LD-CELP)
G.729
Вокодеры с линейным предсказанием, с алгебраическим кодовым возбуждением, с сопряженной структурой, скорость 8 кбит/с (CS-ACELP)
G.723.1
Низкоскоростные вокодеры для связей мультимедиа, работающие на скорости 6,3 и 5,3 кбит/с
Каждая из приведенных в таблице рекомендаций ITU может служить основой для передачи речи по Интернету и другим сетям, так как все они обеспечивают низкие скорости передачи и достаточно просты в реализации персональным компьютером или в микропроцессорном исполнении.
Основной целью проектирования кодеров является уменьшение скорости передачи речи при безусловном сохранении требуемого уровня качества речи для конкретного приложения. Приложения по передаче речи в Интернет или Интранет могут быть либо самостоятельными, либо в форме мультимедиа. Так как мультимедиа подразумевают наличие нескольких средств кодирования речи, для таких приложений подразумевается, что поток речевых данных передается по линии связи совместно с другими сигналами. Некоторые из таких приложений могут включать:
одновременную передачу речи и видео;
приложения с одновременной цифровой передачей речи и данных (DSVD);
одновременную передачу речи и факса.
Особенности функционирования каналов для передачи речевых данных и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе Интернет предъявляют ряд специфических требований к речевым кодерам (вокодерам). Благодаря пакетному принципу передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи.
Наиболее целесообразным и естественным для систем IP-телефонии является применение кодеров с переменной скоростью кодирования речевого сигнала. В основе кодера речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является детектор активности речи (VAD — Voice Activity Detector), который выделяет во входном речевом сигнале активную речь и паузы. При этом фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило, методом CELP) с типичной скоростью 4…8 кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0,1… .0,2 кбит/с) или не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.
С помощью более эффективных классификаторов входного сигнала может более детально осуществляться классификация фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (соответственно большую скорость), для менее ответственных – меньше бит (меньшую скорость). В результате могут быть достигнуты еще более низкие средние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи. MACROBUTTON MTEditEquationSection2 Equation Chapter (Next) Section 5 SEQ MTEqn \r \h \* MERGEFORMAT SEQ MTSec \r 5 \h \* MERGEFORMAT SEQ MTChap \h \* MERGEFORMAT
Передатчик состоит из кодера речи, VAD, усреднителя фоновых шумов и переключателя на канал, который управляется выходом VAD. Когда на вход есть речь, передатчик постоянно включен. Во время пауз передатчик выключается, но после определенного времени, которое должно быть достаточно коротким, передатчик снова включается на один фрейм, чтобы передать информацию о среднем фоне для точного генерирования в приемнике комфортного шума. На приемной стороне, если определено наличие речи, происходит нормальный синтез. Если определено наличие паузы, выполняется одно из двух действий. Если не передается новой информации о фоне, используются существующие параметры шума, генерируется комфортный шум и используется для текущего фрейма. Если передаются новые параметры фонового шума, то старые параметры заменяются на вновь декодированные, а за тем генерируется новый комфортный шум. Обычно, на стороне декодера также используется индикатор «хороший/плохой» фрейм, чтобы показать верны или нет декодированные параметры, и если нет, используется замена фрейма. Эффективность DTX зависит от точности VAD.
продолжение
--PAGE_BREAK--Кодеры стандарта D-AMPS Цифровой стандарт мобильной радиосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональным возможностям и предоставляемым услугам приближается к стандарту GSM. Стандарт D-AMPS не принят в европейских странах, за исключением России, где он в основном ориентирован на региональное использование.
Блок предварительной обработки выполняет следующие функции:
предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю которых в спектре речевого сигнала приходится меньшая мощность;
«нарезание» сигнала на сегменты по 160 выборок (20 мс).
Для каждого 20-мс сегмента оцениваются параметры фильтра кратковременного линейного предсказания – 10 коэффициентов частичной корреляции <shape id="_x0000_i1196" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image242.wmz» o:><img width=«12» height=«25» src=«dopb224036.zip» v:shapes="_x0000_i1196">, <shape id="_x0000_i1197" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image244.wmz» o:><img width=«60» height=«18» src=«dopb224037.zip» v:shapes="_x0000_i1197"> (порядок предсказания М = 10), которые непосредственно кодируются для передачи в канал связи без каких-либо дополнительных преобразований, и оценивается амплитудный множитель р, определяющий энергию сегмента речи.
Сигнал с выхода предварительной обработки фильтруется фильтром-анализатором кратковременного линейного предсказания A(z), имеющего форму трансверсального линейного фильтра, для чего коэффициенты частичной корреляции <shape id="_x0000_i1198" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image246.wmz» o:><img width=«14» height=«25» src=«dopb224038.zip» v:shapes="_x0000_i1198"> преобразуются в коэффициенты линейного предсказания <shape id="_x0000_i1199" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image248.wmz» o:><img width=«16» height=«25» src=«dopb224039.zip» v:shapes="_x0000_i1199">.
Выходной сигнал фильтра кратковременного предсказания (остаток предсказания <shape id="_x0000_i1200" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image250.wmz» o:><img width=«16» height=«25» src=«dopb224040.zip» v:shapes="_x0000_i1200">) используется для оценки параметров фильтра <shape id="_x0000_i1201" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image252.wmz» o:><img width=«35» height=«21» src=«dopb224041.zip» v:shapes="_x0000_i1201"> долговременного предсказания – задержки τ и коэффициента предсказания <shape id="_x0000_i1202" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image254.wmz» o:><img width=«14» height=«17» src=«dopb224042.zip» v:shapes="_x0000_i1202">, причем параметры долговременного предсказания оцениваются в отдельности для каждого из четырех подсегментов по 40 выборок, на которые разделяется сегмент из 160 выборок.
Для каждого из подсегментов определяются параметры сигнала возбуждения. Для этого в составе кодера используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы кратковременного <shape id="_x0000_i1203" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image256.wmz» o:><img width=«39» height=«21» src=«dopb224043.zip» v:shapes="_x0000_i1203">и долговременного <shape id="_x0000_i1204" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image258.wmz» o:><img width=«35» height=«21» src=«dopb224044.zip» v:shapes="_x0000_i1204"> предсказания и две кодовые книги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сигнала возбуждения содержит 128 кодовых векторов, по 40 элементов в каждом.
Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства в 40-мерном пространстве. Каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.
Сигнал возбуждения фильтр синтезатора кратковременного предсказания, в соответствии со схемой декодера рис. 5.4, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра синтезатора долговременного предсказания. Векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления <shape id="_x0000_i1205" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image260.wmz» o:><img width=«16» height=«25» src=«dopb224045.zip» v:shapes="_x0000_i1205"> и <shape id="_x0000_i1206" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image262.wmz» o:><img width=«17» height=«25» src=«dopb224046.zip» v:shapes="_x0000_i1206">, а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтр или суммарный сигнал возбуждения фильтра-синтезатора кратковременного предсказания. Параметры сигнала возбуждения – номера векторов возбуждения <shape id="_x0000_i1207" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image264.wmz» o:><img width=«14» height=«25» src=«dopb224047.zip» v:shapes="_x0000_i1207"> и <shape id="_x0000_i1208" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image266.wmz» o:><img width=«16» height=«25» src=«dopb224048.zip» v:shapes="_x0000_i1208"> из первой и второй кодовых книг и соответствующие коэффициенты усиления <shape id="_x0000_i1209" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image260.wmz» o:><img width=«16» height=«25» src=«dopb224045.zip» v:shapes="_x0000_i1209"> и <shape id="_x0000_i1210" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image262.wmz» o:><img width=«17» height=«25» src=«dopb224046.zip» v:shapes="_x0000_i1210"> – определяются по критерию минимума среднеквадратичной ошибки на выходе фильтра-синтезатора кратковременного предсказания, входящего в состав кодера. Предварительно базисные векторы обеих кодовых книг ортогонализируются: для первой книги – по отношению к выходному вектору фильтра-синтезатора долговременного предсказания, для второй книги – по отношению к тому же выходному вектору и к базисным векторам первой книги.
В результате выходная информация кодера речи для 20-мс сегмента включает:
• параметры фильтра кратковременного линейного предсказания – 10 коэффициентов частичной корреляции <shape id="_x0000_i1211" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image242.wmz» o:><img width=«12» height=«25» src=«dopb224036.zip» v:shapes="_x0000_i1211">, <shape id="_x0000_i1212" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image244.wmz» o:><img width=«60» height=«18» src=«dopb224037.zip» v:shapes="_x0000_i1212">, и амплитудный множитель р – один набор на весь сегмент;
• параметры фильтра долговременного линейного предсказания – коэффициент предсказания <shape id="_x0000_i1213" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image268.wmz» o:><img width=«14» height=«17» src=«dopb224042.zip» v:shapes="_x0000_i1213"> и задержку τ – для каждого из четырех подсегментов;
• параметры сигнала возбуждения – номера <shape id="_x0000_i1214" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image264.wmz» o:><img width=«14» height=«25» src=«dopb224047.zip» v:shapes="_x0000_i1214"> и <shape id="_x0000_i1215" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image266.wmz» o:><img width=«16» height=«25» src=«dopb224048.zip» v:shapes="_x0000_i1215"> векторов возбуждения из двух кодовых книг и соответствующие коэффициенты усиления <shape id="_x0000_i1216" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image260.wmz» o:><img width=«16» height=«25» src=«dopb224045.zip» v:shapes="_x0000_i1216"> и <shape id="_x0000_i1217" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image262.wmz» o:><img width=«17» height=«25» src=«dopb224046.zip» v:shapes="_x0000_i1217"> – для каждого из четырех подсегментов.
В табл. 5.2 приведено содержание выходной информации кодера с указанием числа бит, используемых для кодирования.
Таблица 5.2
Кодирование выходной информации кодера речи стандарта D-AMPS
Передаваемые параметры
Число бит
Примечание
Параметры кратковременного предсказания (коэффициенты частичной корреляции <shape id="_x0000_i1218" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image242.wmz» o:><img width=«12» height=«25» src=«dopb224036.zip» v:shapes="_x0000_i1218">, <shape id="_x0000_i1219" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image244.wmz» o:><img width=«60» height=«18» src=«dopb224037.zip» v:shapes="_x0000_i1219">)
38
<shape id="_x0000_i1220" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image269.wmz» o:><img width=«16» height=«25» src=«dopb224049.zip» v:shapes="_x0000_i1220"> – 6 бит;
<shape id="_x0000_i1221" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image271.wmz» o:><img width=«36» height=«25» src=«dopb224050.zip» v:shapes="_x0000_i1221"> – по 5 бит;
<shape id="_x0000_i1222" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image273.wmz» o:><img width=«36» height=«25» src=«dopb224051.zip» v:shapes="_x0000_i1222"> – по 4 бита;
<shape id="_x0000_i1223" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image275.wmz» o:><img width=«41» height=«25» src=«dopb224052.zip» v:shapes="_x0000_i1223"> – по 3 бита;
<shape id="_x0000_i1224" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image277.wmz» o:><img width=«21» height=«25» src=«dopb224053.zip» v:shapes="_x0000_i1224"> – 2 бита
Амплитудный множитель (энергия сегмента) р
5
Задержка фильтра долговременного предсказания τ (для каждого из четырех подсегментов)
28
7 бит на каждый подсегмент
Номера векторов возбуждения <shape id="_x0000_i1225" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image264.wmz» o:><img width=«14» height=«25» src=«dopb224047.zip» v:shapes="_x0000_i1225"> и <shape id="_x0000_i1226" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image266.wmz» o:><img width=«16» height=«25» src=«dopb224048.zip» v:shapes="_x0000_i1226"> из двух кодовых книг (для каждого из четырех подсегментов
56
h и i2 по 7 бит
Коэффициенты усиления <shape id="_x0000_i1227" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image279.wmz» o:><img width=«14» height=«17» src=«dopb224042.zip» v:shapes="_x0000_i1227">, <shape id="_x0000_i1228" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image260.wmz» o:><img width=«16» height=«25» src=«dopb224045.zip» v:shapes="_x0000_i1228"> и <shape id="_x0000_i1229" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image262.wmz» o:><img width=«17» height=«25» src=«dopb224046.zip» v:shapes="_x0000_i1229"> (для каждого из четырех подсегментов)
32
8 бит на каждый подсегмент; векторному квантованию и кодированию подвергаются некоторые функции от <shape id="_x0000_i1230" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image279.wmz» o:><img width=«14» height=«17» src=«dopb224042.zip» v:shapes="_x0000_i1230">, <shape id="_x0000_i1231" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image260.wmz» o:><img width=«16» height=«25» src=«dopb224045.zip» v:shapes="_x0000_i1231"> и <shape id="_x0000_i1232" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image262.wmz» o:><img width=«17» height=«25» src=«dopb224046.zip» v:shapes="_x0000_i1232">
Всего на 20-мс сегмент
159
Общий объем информации, выдаваемой для 20-мс сегмента речи, составляет 159 бит. Поскольку исходный объем информации на входе кодера составляет 1280 бит (160 выборок по 8 бит), кодер осуществляет сжатие информации более чем в 8 раз. Перед передачей в канал связи выходная информация кодера речи подвергается дополнительному канальному кодированию, причем разные параметры в зависимости от их важности для обеспечения качества речи кодируются с различной степенью избыточности.
Функционирование декодера осуществляется по следующему алгоритму. Сигнал возбуждения фильтра-синтезатора кратковременного предсказания формируется таким же образом, как и в синтезирующей схеме кодера:
по номерам <shape id="_x0000_i1233" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image264.wmz» o:><img width=«14» height=«25» src=«dopb224047.zip» v:shapes="_x0000_i1233"> и <shape id="_x0000_i1234" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image266.wmz» o:><img width=«16» height=«25» src=«dopb224048.zip» v:shapes="_x0000_i1234"> из кодовых книг выбираются векторы возбуждения, которые умножаются соответственно на коэффициенты усиления <shape id="_x0000_i1235" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image260.wmz» o:><img width=«16» height=«25» src=«dopb224045.zip» v:shapes="_x0000_i1235"> и <shape id="_x0000_i1236" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image262.wmz» o:><img width=«17» height=«25» src=«dopb224046.zip» v:shapes="_x0000_i1236"> и складываются с выходным вектором фильтра-синтезатора долговременного предсказания, определяемого параметрами <shape id="_x0000_i1237" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image280.wmz» o:><img width=«14» height=«17» src=«dopb224042.zip» v:shapes="_x0000_i1237"> и τ.
Окончательно сигнал возбуждения фильтруется фильтром-синтезатором кратковременного предсказания, выполненного в форме трансверсального фильтра, т.е. параметры фильтра преобразуются из коэффициентов частотной корреляции <shape id="_x0000_i1238" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image281.wmz» o:><img width=«12» height=«25» src=«dopb224036.zip» v:shapes="_x0000_i1238"> в коэффициенты предсказания <shape id="_x0000_i1239" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image282.wmz» o:><img width=«16» height=«25» src=«dopb224039.zip» v:shapes="_x0000_i1239">. Для улучшения субъективного качества синтезированной речи выходной сигнал фильтра-синтезатора подвергается цифровой адаптивной постфильтрации и с выхода постфильтра получается восстановленный цифровой речевой сигнал.
Кодеры TETRA TETRA (Trans-European Trunked Radio) представляет собой стандарт цифровой транкинговой радиосвязи, состоящий из ряда спецификаций, разработанных Европейским институтом телекоммуникационных стандартов ETSI.
TETRA — открытый стандарт, т.е. доступ к спецификациям TETRA свободен для всех заинтересованных сторон. В связи с этим оборудование различных производителей должно быть совместимо.
Стандарт TETRA создавался как единый общеевропейский цифровой стандарт. Стандарт разработай на основе технических решений и рекомендаций стандарта GSM и ориентирован на создание систем связи, эффективно и экономично поддерживающих совместное использование сетей различными группами пользователей с обеспечением секретности и защищенности информации.
Речевой кодер TETRA основан на модели кодирования CELP – с линейным предсказанием с кодовым возбуждением. В этой модели блок из N речевых выборок синтезируется путем фильтрации соответствующей обновленной последовательности из кодовой книги, масштабированной коэффициентом усиления <shape id="_x0000_i1240" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image283.wmz» o:><img width=«18» height=«25» src=«dopb224054.zip» v:shapes="_x0000_i1240">, с помощью двух изменяющихся во времени фильтров.
Первый фильтр является фильтром долгосрочного предсказания (фильтром основного тона), цель которого – моделирование псевдопериодического речевого сигнала, а второй – фильтр краткосрочного предсказания – моделирует огибающую речевого спектра.
Передаточная характеристика долгосрочного фильтра (или фильтра синтеза основного тона) определяется формулой
<shape id="_x0000_i1241" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image285.wmz» o:><img width=«117» height=«47» src=«dopb224055.zip» v:shapes="_x0000_i1241">
где Т – задержка основного тона; <shape id="_x0000_i1242" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image287.wmz» o:><img width=«21» height=«26» src=«dopb224056.zip» v:shapes="_x0000_i1242">– коэффициент усиления основного тона. Фильтр синтеза основного тона выполнен как адаптивная кодовая книга, где для задержек, меньших чем длина подфрейма, повторяется последнее возбуждение.
Краткосрочный фильтр синтеза определяется формулой
<shape id="_x0000_i1243" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image289.wmz» o:><img width=«179» height=«65» src=«dopb224057.zip» v:shapes="_x0000_i1243">
где <shape id="_x0000_i1244" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image291.wmz» o:><img width=«16» height=«25» src=«dopb224039.zip» v:shapes="_x0000_i1244">, <shape id="_x0000_i1245" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image292.wmz» o:><img width=«64» height=«21» src=«dopb224058.zip» v:shapes="_x0000_i1245">, – параметры линейного предсказания; р – порядок предсказателя. В кодере TETRA порядок р = 10.
При способе анализа-через-синтез синтезированная речь вычисляется для всех кандидатов – последовательностей, составляя особую последовательность, которая и формирует выходной сигнал, наиболее близкий к исходному, в соответствии с взвешенной величиной измеренных искажений. Фильтр взвешивания, корректирующий ошибку предыскажений в области форманты спектра речи, определяется формулой
<shape id="_x0000_i1246" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image294.wmz» o:><img width=«110» height=«44» src=«dopb224059.zip» v:shapes="_x0000_i1246"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 5. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 1)
где <shape id="_x0000_i1247" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image296.wmz» o:><img width=«35» height=«21» src=«dopb224060.zip» v:shapes="_x0000_i1247"> – обратный (инверсный) фильтр линейного предсказания; <shape id="_x0000_i1248" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image298.wmz» o:><img width=«57» height=«21» src=«dopb224061.zip» v:shapes="_x0000_i1248"> (используется значение <shape id="_x0000_i1249" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image300.wmz» o:><img width=«61» height=«25» src=«dopb224062.zip» v:shapes="_x0000_i1249">). Для взвешивающего фильтра <shape id="_x0000_i1250" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image302.wmz» o:><img width=«39» height=«21» src=«dopb224063.zip» v:shapes="_x0000_i1250"> и фильтра синтеза формант <shape id="_x0000_i1251" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image304.wmz» o:><img width=«39» height=«21» src=«dopb224043.zip» v:shapes="_x0000_i1251"> используются квантованные параметры линейного предсказания.
В алгебраическом CELP (ACELP) используется специальная кодовая книга, имеющая алгебраическую структуру. Эта алгебраическая структура имеет некоторые преимущества в отношении сохранения, сложности поиска и устойчивости (робастности). Кодер TETRA использует специальную динамическую алгебраическую кодовую книгу возбуждения, посредством которой, а также динамической матрицы формы образуются фиксированные векторы возбуждения. Матрица формы – это функция модели A(z) линейного предсказания. Главная ее роль – формировать векторы возбуждения в частотной области так, чтобы их энергии были сконцентрированы в наиболее важных частотных полосах. Используемая матрица формы является триангулярной Теплицевой матрицей низшего порядка, сформированной из импульсного отклика фильтра:
<shape id="_x0000_i1252" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image305.wmz» o:><img width=«113» height=«45» src=«dopb224009.zip» v:shapes="_x0000_i1252"> MACROBUTTON MTPlaceRef \* MERGEFORMAT SEQ MTEqn \h \* MERGEFORMAT ( SEQ MTSec \c \* Arabic \* MERGEFORMAT 5. SEQ MTEqn \c \* Arabic \* MERGEFORMAT 2)
где A(z) — инверсный фильтр линейного предсказания (в конкретных реализациях <shape id="_x0000_i1253" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image306.wmz» o:><img width=«61» height=«25» src=«dopb224064.zip» v:shapes="_x0000_i1253"> и <shape id="_x0000_i1254" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image308.wmz» o:><img width=«64» height=«25» src=«dopb224065.zip» v:shapes="_x0000_i1254">).
В кодере TETRA используются фреймы речи по 30 мс. Это требуется для того, чтобы параметры краткосрочного предсказания вычислялись и передавались в каждом речевом фрейме. Речевой фрейм разделен на четыре подфрейма по 7,5 мс (60 выборок). Основной тон и параметры алгебраической кодовой книги также передаются в каждом подфрейме. В табл. 5.3 представлено распределение бит для кодера TETRA. Должно быть сформировано 137 бит для каждого фрейма по 30 мс, что в результате дает скорость 4567 бит/с.
Таблица 5.3
Параметр
Номер сегмента
Всего в кадре
1
2
3
4
Коэффициенты линейного предсказания
26
Период основного тона
8
5
5
5
23
Индекс алгебраической кодовой книги
16
16
16
16
64
Коэффициенты усиления
6
6
6
6
24
Всего
137
Кодеры стандарта АРСО 25 АРСО 25 – стандарт транкинговой радиосвязи, описывающий структуру цифровой транкинговой системы и некоторые ее интерфейсы. Для цифровой передачи речи стандарт АРСО 25 предусматривает использование кодера IMBE (Improved MultiBand Excitation, модифицированный метод многополосного возбуждения). Кодер формирует цифровой поток со скоростью 4,4 кбит/с. Для исправления ошибок в цифровом речевом сигнале используется избыточное кодирование, порождающее дополнительный цифровой поток со скоростью 2,8 кбит/с.
Цифровой речевой сигнал передается кадрами длительностью 180 мс. Два речевых кадра образует суперкадр длительностью 360 мс. Перед передачей речи следует преамбула длительностью 82,5 мс, которая содержит синхропакет (48 бит), идентификатор сети (64 бита), служащий для предотвращения конфликтов между радиостанциями, работающими на одной частоте; информацию для алгоритма шифрования, идентификатор ключа алгоритма шифрования и другие служебные идентификаторы (всего 126 бит). Кадры речи, кроме собственно речевой информации, содержат дополнительную информацию (управления связью, канала сигнализации и т.д.)
Речевой IMBE-кодер основан на модели речи, которая относится к моделям с многополосным возбуждением (МВЕ). Основная идея работы кодера состоит в разделении цифрового речевого входного сигнала на перекрывающиеся речевые сегменты (или фреймы) с использованием окна Кайзера. Затем для определенного фрейма оценивается набор параметров.
Речевой MBE-кодер является вокодером, т.е. он не кодирует входной речевой сигнал выборка за выборкой, а синтезирует сигнал, который содержит ту же информацию для восприятия человеком, что и исходный речевой сигнал. Заметим, что когда речь не является вокализованнной, исходный и синтезированный сегменты речи могут не иметь никакого сходства во временной области.
Речевой MBE-кодер имеет два основных преимущества перед ранее используемыми вокодерами: во-первых, он основан на МВЕ речевой модели, которая является более устойчивой, чем традиционные речевые модели в рассмотренных вокодерах; во-вторых, данный метод использует более сложный алгоритм оценки параметров модели речевого синтеза речевого сигнала из параметров модели.
Главное отличие речевых традиционных вокодеров от модели МВЕ состоит в сигнале возбуждения. В обычных речевых моделях для каждого речевого сегмента используется единственное решение вокал/невокал. В отличие от этого речевая модель МВЕ разделяет сигнал возбуждения на несколько неперекрывающихся частотных полос и принимает решение вокал/невокал для каждой частотной полосы. Это позволяет представить сигнал возбуждения для определенного речевого сегмента в виде смеси периодической (вокализованной) энергии и шумоподобной (невокализованной) энергии. Из-за этих множественных определений вокал/невокал эта модель называется моделью с многополосным возбуждением. Такая речевая модель позволяет синтезировать речь с более качеством, чем традиционные модели. Кроме того, речевая модель МВЕ более устойчива к фоновому шуму.
В речевой модели MBE сигнал возбуждения формируется из сигнала основного тона (или основной частоты) и решений вокал/невокал. Для вокализованной речи сигнал возбуждения является периодической импульсной последовательностью, в которой расстояние между импульсами определяется периодом основного тона <shape id="_x0000_i1255" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image310.wmz» o:><img width=«17» height=«25» src=«dopb224066.zip» v:shapes="_x0000_i1255">. Для невокализованной речи сигнал возбуждения представляет собой белый шум. Периодический спектр создается из взвешенной периодической последовательности импульсов, которая полностью определяется окном взвешивания и периодом основного тона. Его спектр формируется из взвешенной последовательности случайного шума.
Обычно алгоритмы для оценки параметров возбуждения и алгоритмы для оценки параметров огибающей спектра работают независимо. Эти параметры оцениваются на основе нескольких критериев без ясных оснований, насколько синтезированная речь должна быть близка к исходной. Это может проявиться в том, что синтезированный спектр будет слегка отличаться от исходного.
В речевом IMBE-кодере параметры возбуждения и огибающей спектра оцениваются одновременно так, что синтезированный спектр является самым близким к исходному речевому спектру.
Блок-схема алгоритма анализа показана на рис. 5.7.
<shape id="_x0000_i1256" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image312.emz» o:><img width=«285» height=«283» src=«dopb224067.zip» v:shapes="_x0000_i1256">
продолжение
--PAGE_BREAK--Рисунок STYLEREF 1 \s 5. SEQ Рисунок \* ARABIC \s 1 7
Параметры МВЕ модели речи, которые должны быть оценены для каждого речевого фрейма следующие:
период основного тона (или основная частота);
решение вокал/невокал;
спектральные амплитуды, характеризующие огибающую спектра.
В декодере вокализированная и невокализированная компоненты синтезируются отдельно и на заключительной стадии объединяются для получения полного речевого сигнала. Алгоритмы, которые используются для синтеза вокализированных и невокализированных частей речи, основаны на двух различных способах.
Невокализованная часть речи генерируется из гармоник, которые объявлены невокализованными. Для каждого фрейма речи блок случайного шума взвешивается и преобразуется с помощью быстрого преобразования Фурье. Области спектра, которые соответствуют вокализованным гармоникам, принимаются равными нулю.
Так как вокализованная речь моделируется ее индивидуальными гармониками в частотной области, на стороне декодера она восстанавливается как совокупный сигнал регулируемых генераторов. Каждой гармонике вокализованной области фрейма поставлен в соответствие генератор, который характеризуется частотой и фазой. Однако из-за того, что вокализованная часть речи не является периодической на интервалах, состоящих нескольких фреймов анализа, отклонения от ожидаемых параметров соседних фреймов могут вызвать скачки по концам фреймов, что приведет к значительному ухудшению качества речи. Для разрешения этой проблемы во время синтеза проверяются параметры текущего и предыдущего фреймов для уверенности, что на границе фреймов происходит плавный переход. Это делается для того, чтобы на границах фреймов вокализированная речь была непрерывной. Для обеспечения непрерывности в начале и конце фрейма речи функция амплитуды линейно интерполируется между значениями оценок для текущего и предыдущего фреймов.
Синтез речи в IMBE-декодере требует информации об основной частоте, решении вокал/невокал, величине спектральных составляющих и фазе вокализованных гармоник. Так как фазы вокализованных гармоник можно предсказать, информация о фазе не передается между кодером и декодером. Основная частота (основой тон) квантуется с половинной точностью выборки во временной области, причем возможный диапазон тона перекрывается восемью битами. Peшение вокал/невокал является двоичным числом и не требует квантования. Общее распределение бит для каждого фрейма приведено в табл. 5.4.
Таблица 5.4.
Распределение бит IMBE-кодера в системе АРСО 25
Параметр
Число бит
Основная частота
8
Информация вокал/невокал
b
Спектральные амплитуды
79 – b
Синхронизация
1
Число полос, на которые разбивается речевой фрейм в частотной области, зависит от основного тона фрейма, но не превышает 12.
Таким образом, в кодере IMBE фрейм речи имеет длительность 20 мс, содержит 144 бита, из которых 56 используются для канального кодирования, 88 – для кодирования параметров речевой модели. Кодер работает на скорости 4,4 кбит/с. Скорость передачи в канале – 7,2 кбит/с.
Кодирование речи в системе INMARSAT-M Для системы мобильной спутниковой связи INMARSAT была выбрана улучшенная версия речевого кодера МВЕ, описанного в предыдущем параграфе как версия стандарта на скорости 6,4 кбит/с для наземных систем подвижной связи. Размер фрейма кодера 20 мс. При этом обеспечивается кодирование источника и канала с помощью 128 бит на каждый фрейм. Из этих 128 бит 45 (2,25 кбит/с) зарезервированы для коррекции ошибок, а оставшиеся 83 бита (4,15 кбит/с) разделены между различными параметрами речи, как показано в табл. 5.5.
Таблица 5.5
Распределение бит в системе INMARSAT-M
Параметр
Число бит
Основная частота
8
Информация вокал/невокал
b
Спектральные амплитуды
75 – b
Синтез речи в МВЕ декодере требует информации об основной частоте, решении вокал/невокал, спектральных величинах и фазах вокализированных гармоник. Так как фазы вокализированных гармоник можно предсказать, информация о фазе не передается от кодера к декодеру. Основная частота (основной тон) обычно квантуется с половинной точностью выборки во временной области, причем возможный диапазон тона перекрывается восемью битами. Решение вокал/невокал является двоичным числом и не требует квантования. Набор спектральных величин требует большей точности и эффективности квантования. Общее распределение бит для каждого фрейма следующее:
1) восемь бит для точного квантования тона;
2) b бит для решения вокал/невокал, где b – число полос принятия решения вокал/невокал;
3) оставшиеся биты для квантования гармоник.
Так как число гармоник зависит от основного тона, который изменяется, число бит, присваиваемых для решения вокал/невокал, может также изменяться. Типичное число вокализированных/невокализированных полос равно 12 (4), что означает, что максимальное число бит для описания вокал/невокал равно 12. Общее число бит <shape id="_x0000_i1257" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image314.wmz» o:><img width=«21» height=«25» src=«dopb224068.zip» v:shapes="_x0000_i1257"> для квантования гармоник определяется формулой
<shape id="_x0000_i1258" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image316.wmz» o:><img width=«103» height=«25» src=«dopb224069.zip» v:shapes="_x0000_i1258">
где максимум b равен 12; <shape id="_x0000_i1259" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image318.wmz» o:><img width=«21» height=«25» src=«dopb224070.zip» v:shapes="_x0000_i1259"> – общее число бит для фрейма.
Рассмотрим способ квантования, используемый в системе INMARSAT-M.
Квантование основной частоты. Основная частота квантуется при преобразовании ее в эквивалентный период основного тона <shape id="_x0000_i1260" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image320.wmz» o:><img width=«17» height=«25» src=«dopb224066.zip» v:shapes="_x0000_i1260">. Значения периода основного тона обычно ограничены диапазоном <shape id="_x0000_i1261" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image321.wmz» o:><img width=«88» height=«25» src=«dopb224071.zip» v:shapes="_x0000_i1261">. В системе МВЕ, предназначенной для работы на скорости 6,4 кбит/с, этот параметр равномерно квантуется с использованием 8 бит при размере шага 0,5, что дает возможность обеспечить половинную точность выборки.
Кодирование решений вокал/невокал. b решений вокал/невокал являются двоичными числами, поэтому могут быть закодированы с использованием одного бита для каждой полосы решения. Система на скорости передачи 2,4 кбит/с использует максимум 12 полос, каждая с шириной <shape id="_x0000_i1262" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image323.wmz» o:><img width=«27» height=«25» src=«dopb224072.zip» v:shapes="_x0000_i1262"> Гармоники вне b полос вокал/невокал приняты невокализированными.
Квантование спектральных величин. Перед квантованием спектральных величин для уменьшения их изменения используется этап предсказания.
Остатки предсказания группируются в шесть последовательных блоков, содержащих <shape id="_x0000_i1263" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image325.wmz» o:><img width=«17» height=«25» src=«dopb224073.zip» v:shapes="_x0000_i1263"> остаточных выборок каждый. Каждый блок преобразуется по частоте с использованием дискретного косинусоидального преобразования (ДКП) размером <shape id="_x0000_i1264" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image325.wmz» o:><img width=«17» height=«25» src=«dopb224073.zip» v:shapes="_x0000_i1264">.
Постоянные составляющие L шести ДКП-блоков (первые коэффициенты) группируются как вектор и квантуются с использованием кодовой книги шестибитового скалярного усиления и десятибитового вектора формы. Коэффициенты более высокого порядка М квантуются с использованием скалярных квантователей, где в процессе присвоения бит распределяются оставшиеся биты в соответствии с важностью для субъективного восприятия каждой величины. Блок-схема общей процесса квантования величин показана на рис. 5.8.
<shape id="_x0000_i1265" type="#_x0000_t75" o:ole=""><imagedata src=«46242.files/image327.emz» o:><img width=«551» height=«331» src=«dopb224074.zip» v:shapes="_x0000_i1265">
Рисунок STYLEREF 1 \s 5. SEQ Рисунок \* ARABIC \s 1 8
После правильного восстановления спектральных величин МВЕ-кодер пытается улучшить качество восприятия синтезированной речи с использованием усилителя. Усиление спектральных величин выполняется генерированием набора спектральных весов из принятых параметров текущего фрейма.
В типичном МВЕ-кодере большая часть бит выделена для квантования спектральных величин. В случае системы INMARSAT-M, где кодер источника работает на скорости 4,15 кбит/с при скорости фреймов 50 Гц, только 20 (8+ 12) бит используются для формирования информации об основном периоде и информации «вокал/невокал». Остальные биты используются для квантования спектральных величин. Таким образом, для успешного синтеза речи необходимо точно знать основной период. Для покрытия речевого спектра 4 кГц достаточно 12 полос вокал/невокал. В результате общая скорость кодера может быть уменьшена за счет более эффективного квантования величин. В системе INMARSAT-M все спектральные величины, кроме шести, проквантованы с использованием скалярных квантователей. Сокращение скорости можно добиться также за счет векторного квантования всех величин. Однако, так как число спектральных величин может изменяться от 9 до более чем 60 в зависимости от основной частоты, векторную кодовую книгу, учитывающую эти изменениями, создать очень сложно. Поэтому целесообразно векторное квантование использовать только для основной формы спектра, которая может быть принята независимой от основной частоты.
Глава 3 Перспективы кодирования речи. В данной главе будут коротко рассмотрены перспективы использования различных речевых кодеков в сетях связи общего пользования.
Рассмотрим некоторые параметры наиболее распространенных кодеков сетей общего пользования.
Однако, кроме кодеков ИКМ по G.711, на ССОП в настоящее время применяются аналого-цифровые преобразователи других типов, использующие те или иные способы компрессии речи и поэтому имеющие меньшую скорость передачи цифрового сигнала по сравнению со стандартным кодеком ИКМ. Основные области применения низкоскоростных кодеков: • системы подвижной связи (в частности, цифровые сотовые и транкинговые системы); • аппаратура DCME (в небольшом количестве используется на сети ОАО «Ростелеком»); • абонентские компьютерные и мультимедийные терминалы, аппараты IP-телефонии;
• цифровые беспроводные телефоны.
Таблица 6.1. Наиболее распространенные кодеки.
Кодек
Наименование
Скорость кбит/с
Стандарт
Standard PCM
Стандартный ИKM кодек для сетей с коммутацией каналов
64
ITU-T G.711
GSM-FR PRE-LTP
Кодек 1-го поколения GSM с возбуждением регулярной последовательностью импульсов и долговременным предсказанием
13
ETSIGSM 06.16
GSM-HR VCELP
Кодек GSM (с «половинной» скоростью) с линейным предсказанием и возбуждением векторной суммой
5,6
ETSIGSM 06.20
GSM-EFR ACELP
Кодек 2-го поколения GSM с алгебраическим кодовым возбуждением и линейным предсказанием
12,2
ETSIGSM 06.60
Videophone ACELP
Речевой кодек для мультимедийной связи с алгебраическим кодовым возбуждением и линейным предсказанием
5,3
ITU-T G.723.1
Videophone MP-MLQ
Речевой кодек для мультимедийной связи с многоимпульсным квантованием по критерию правдоподобия
6,3
ITU-T G.723.1
ADPCM
Кодек АДИКМ (адаптивной дифференциальной ИКМ)
40, 32, 24, 16
ITU-T G.726
LD-CELP
Кодек с линейным предсказанием, с кодовым возбуждением и малой задержкой
16, 12, 8, 9, 6
ITU-T
G.728
CS-ACELP
Кодек с линейным предсказанием, алгебраическим кодовым возбуждением и сопряженной структурой
8
ITU-T
G.729
Низкоскоростным кодекам свойственны определенные ухудшения параметров, влияющие на качество передачи речи, по сравнению со стандартным кодеком ИКМ. Важно, что эти ухудшения накапливаются при тандемном включении как однородных, так и разнородных низкоскоростных кодеков.
Следует отметить следующие основные факторы, влияющие на качество передачи речи при использовании кодеков:
• искажения квантования;
• временная задержка;
• амплитудно-частотные искажения;
• битовые ошибки;
• проскальзывания;
• потеря кадров;
• потеря пакетов.
Планирование речевых соединений требует обязательного учета ухудшений, вносимых каждым переходом А-Ц и Ц-А, и определения на этой основе допустимого количества таких переходов. Для этой цели используется так называемая Е-модель, разработанная ETSI и рекомендуемая МСЭ-Т при планировании речевых соединений «из конца в конец». Эта модель позволяет в комплексе учесть практически все ухудшающие факторы.
Наиболее важным параметром Е-модели является коэффициент ухудшения за счет аппаратуры, обозначаемый Ic. Чем больше этот коэффициент, тем большую долю деградации вносит данная аппаратура (конкретно – кодек). В табл. 6.2 для сравнения показаны значения для различных кодеков.
Таблица 6.2
Кодек
Скорость кбит/с
Стандарт
Ic(G.113)
Standard PCM
64
ITU-T G.711
0
GSM-FR PRE-LTP
13
ETSIGSM 06.16
20
(25-42)*
GSM-HR VCELP
5,6
ETSIGSM 06.20
23
(32-45)*
GSM-EFR ACELP
12,2
ETSIGSM 06.60
5
(15-35)*
Videophone ACELP
5,3
ITU-T G.723.1
19
Videophone MP-MLQ
6,3
ITU-T G.723.1
15
ADPCM
40, 32, 24, 16
ITU-T G.726
2, 7, 25, 50
LD-CELP
16, 12, 8, 9, 6
ITU-T
G.728
7, 20
CS-ACELP
8
ITU-T
G.729
10
* – при наличии битовых ошибок
Проблема задержки сигнала. Среди многих факторов, влияющих на качество передачи речи, можно отметить задержку сигнала в терминалах и узлах сети.
Желательной является задержка, не превышающая 150 мс, поскольку кроме задержки следует учитывать и другие ухудшающие факторы. Как уже указывалось, задержка, вносимая стандартными кодеками ИКМ, незначительна и составляет меньше 0,4 мс.
Существенное увеличение задержки по сравнению со стандартными кодеками ИКМ дают низкоскоростные кодеки. В частности, только сами кодеки в терминалах GSM вносят задержку в 60 мс, что эквивалентно времени прохождения через волоконно-оптическую линию связи (ВОЛС) длиной 12000 км. Процедура «фрейминга» (формирования кадров) на радиоинтерфейсе добавляет еще 35 мс задержки.
В табл. 6.3 представлены задержки, вносимые речевыми кодеками (МСЭ-Т G.114) различных типов, и соответствующие эквивалентные длины ВОЛС. Из таблицы следует, что задержки в низкоскоростных кодеках весьма велики, что делает дополнительные перекодировки практически недопустимыми. При этом нельзя упускать из виду повышенные задержки в таких сетевых элементах как шлюзы, маршрутизаторы и т. д.
Таблица 6.3
Кодек
Стандарт
Средняя задержка, мс
Эквивалентная длина ВОЛС, км
Standard PCM
ITU-T G.711
0,375
75
GSM-FR RPE-LTR
ETSI GSM 06.10
95
19000
GSM-HR VCELP
ETSI GSM 06.20
95
19000
GSM-EFRACELP
ETSI GSM 06.60
95
19000
Videophone ACE LP
ITU-TG.723.1
97,5
19500
Videophone MP-MLQ
ITU-T G.723.1
97,5
19500
ADPCM
ITU-T G.726
0,375
75
LD-CELP
ITU-T G.728
1.875
375
CS-ACELP
ITU-T G.729
35
7000
Таким образом, приходится делать выбор между качеством связи и шириной канала поэтому задача проектирования наиболее качественных кодеков для низкоскоростных каналов с высоким уровнем помех весьма актуальна.
Рассмотрим наиболее эффективные, сегодня методы практической реализации низкоскоростных (1,2—2,4 кбит/с) MELP-вокодеров. предназначенных для работы в канале с высоким процентом канальных ошибок, и основные направления совершенствования данных методов.
В качестве базового алгоритма вокодера был выбран алгоритм MELP–2400, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарт США FS-1016. Данный алгоритм основан на традиционной параметрической модели кодирования с линейным предсказанием и, кроме того, содержит ряд дополнительных особенностей:
• вся рабочая область частот делится на пять полос; в каждой из которых принимается решение о классе сигнала возбуждения — «шумовой» или «голосовой». Таким образом суммарный сигнал возбуждения является смешанным;
• форма «голосового» сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера:
• для реализации одиночных импульсов возбуждения применяются «апериодические» импульсы;
• с целью улучшения «натуральности» звучания синтезированной речи применяются дисперсионный и адаптивный фильтры.
Суммарный список параметров, передаваемых от колера к декодеру за один речевой фрейм длительностью 22.5 мс, представлен в табл. 6.4.
продолжение
--PAGE_BREAK--
еще рефераты
Еще работы по информатике
Реферат по информатике
Обзор моделей коммутаторов
3 Сентября 2013
Реферат по информатике
Программно-аппаратный комплекс для многофункционального метеорологического радиолокатора на базе
18 Июня 2015
Реферат по информатике
Мировые информационные ресурсы определение, классификация
18 Июня 2015
Реферат по информатике
Общая идеология Power Point
3 Сентября 2013