+ All Categories
Home > Documents > 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework...

前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework...

Date post: 17-Apr-2020
Category:
Upload: others
View: 21 times
Download: 0 times
Share this document with a friend
53
I 本报告主要的研究对象是当今国内外音频编解码技术标准,着眼点是相关音频标准的 现状和发展情况。 在国外的音频标准方面,本报告主要研究分析了 ISO/IEC ITU-T 两大国际标准化组 织管理和组织开发的语音、音频编码技术标准。对于 ISO/IEC 所成立的 MPEG 的音频部 分,由于其是现在广泛使用的音频编码标准,本报告做了较为详细的分析,同时也介绍了 MPEG W11 的工作计划和项目安排,分析了 MP3 MPEG-AAC 的专利情况。对于 ITU-T SG16 WP3 Q9 Q10 组织开发制定的语音、音频标准,本报告根据每个技术的标准化进 程和开发情况做了介绍分析。 在国内的音频标准方面,本报告主要研究分析了 DRA 技术和 AVS-P3 音频技术,同 时都详细介绍分析了这两个技术各自关键技术的特点;介绍了广晟公司对 DRA 技术的专 利申请情况和技术评测情况;介绍了 AVS-P3 和目前国际音频标准的主要模块的性能比较, 并对国内音频编码技术研究提出了较为明确的建议。 本研究报告由 IP 与多媒体通信技术委员会信源编码工作组提出,IP 与多媒体通信 技术委员会通过。 本研究报告编写单位:信息产业部电信研究院 华为技术有限公司 中兴通讯股份有限公司 飞利浦(中国)投资有限公司 本研究报告编写人:张恒升 聂秀英 罗忠 黎家力 马付伟 陈国明 张德军 袁浩 苗磊 彭科 谭径微 张亮 许剑峰 http://www.ptsn.net.cn
Transcript
Page 1: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

I

前 言

本报告主要的研究对象是当今国内外音频编解码技术标准,着眼点是相关音频标准的

现状和发展情况。 在国外的音频标准方面,本报告主要研究分析了 ISO/IEC 和 ITU-T 两大国际标准化组

织管理和组织开发的语音、音频编码技术标准。对于 ISO/IEC 所成立的 MPEG 的音频部

分,由于其是现在广泛使用的音频编码标准,本报告做了较为详细的分析,同时也介绍了

MPEG W11 的工作计划和项目安排,分析了 MP3 和 MPEG-AAC 的专利情况。对于 ITU-T SG16 WP3 Q9 和 Q10 组织开发制定的语音、音频标准,本报告根据每个技术的标准化进

程和开发情况做了介绍分析。 在国内的音频标准方面,本报告主要研究分析了 DRA 技术和 AVS-P3 音频技术,同

时都详细介绍分析了这两个技术各自关键技术的特点;介绍了广晟公司对 DRA 技术的专

利申请情况和技术评测情况;介绍了 AVS-P3 和目前国际音频标准的主要模块的性能比较,

并对国内音频编码技术研究提出了较为明确的建议。 本研究报告由 IP 与多媒体通信技术委员会信源编码工作组提出,IP 与多媒体通信

技术委员会通过。

本研究报告编写单位:信息产业部电信研究院 华为技术有限公司 中兴通讯股份有限公司 飞利浦(中国)投资有限公司

本研究报告编写人:张恒升 聂秀英 罗忠 黎家力 马付伟 陈国明 张德军 袁浩 苗磊

彭科 谭径微 张亮 许剑峰

http:/

/www.pt

sn.ne

t.cn

Page 2: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

II

目 录

1 概述 .............................................................. 1

2 MPEG 技术.......................................................... 1

2.1 MPEG 简介 ................................................................................................................. 1

2.2 MPEG 音频编解码技术分析 ........................................................................................ 2

2.2.1 MPEG-1 Audio......................................................................................................... 2

2.2.2 MPEG-2 ................................................................................................................... 3

2.2.3 MPEG-4 ................................................................................................................... 5

2.3 MPEG WG11 的工作情况........................................................................................ 15

2.3.1 已经完成的标准化工作........................................................................................ 15

2.3.2 工作计划和时间安排............................................................................................ 16

2.3.3 目前关于音频的相关任务(包括进行中和还未开展).................................... 16

2.4 IPR 调查及评估 ........................................................................................................ 17

2.4.1 MP3 ........................................................................................................................ 17

2.4.2 MPEG-AAC........................................................................................................... 18 3 ITU-T G.718 标准.................................................. 19

3.1 ITU-T SG16 WP3 Q9 简介 ....................................................................................... 19

3.2 G..718 标准介绍 ........................................................................................................ 19

3.2.1 G..718 窄带、宽带标准 ........................................................................................ 19

3.2.2 G..718 的 baseline codec 编/解码器 ...................................................................... 20

3.3 标准参与厂商 ........................................................................................................... 20

3.4 G.718 超宽带、立体声标准 ..................................................................................... 20 4 G.729.1 标准及其扩展技术.......................................... 21

4.1 ITU-T SG16 WP3 Q10 简介 ..................................................................................... 21

4.2 G.729.1 标准介绍 ...................................................................................................... 22

4.2.1 G.729 EV 编/解码器............................................................................................. 22

4.3 G.729.1 DTX/CNG 标准化进展 ............................................................................... 22

4.4 G.729.1 SWB 标准化项目 ........................................................................................ 23 5 G.711 扩展技术.................................................... 24

5.1 G.711WB 标准化进展介绍 ........................................................................................ 24

5.1.1 G.711WB 编解码器高层结构................................................................................. 24

5.2 G.711 LLC ................................................................................................................. 29 6 G.722 扩展技术.................................................... 29

6.1 G.719 全带扩展 ......................................................................................................... 29

http:/

/www.pt

sn.ne

t.cn

Page 3: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

III

6.2 G.722 SWB ................................................................................................................ 30 7 DRA 技术介绍...................................................... 30

7.1 音频数据帧的组成 ................................................................................................... 30

7.1.1 帧头........................................................................................................................ 30

7.1.2 正常声道................................................................................................................ 32

7.1.3 低频效应声道........................................................................................................ 32

7.1.4 误码检测................................................................................................................ 32

7.1.5 辅助数据................................................................................................................ 32

7.2 编/解码器 ................................................................................................................. 32

7.2.1 编码器组成............................................................................................................ 33

7.2.2 解码器的组成........................................................................................................ 34

7.3 可变分辨率的滤波器组 ........................................................................................... 35

7.3.1 窗口函数集............................................................................................................ 35

7.3.2 短/暂窗口函数序列............................................................................................... 38

7.4 DRA 技术 Huffman 码书的选择 ................................................................................ 39

7.5 DRA 自有专利情况 .................................................................................................... 39

7.6 技术评测 ................................................................................................................... 39 8 AVS-P3 音频标准................................................... 40

8.1 简介 ........................................................................................................................... 40

8.2 编码原理 ................................................................................................................... 40

8.3 关键技术 ................................................................................................................... 41

8.3.1 瞬时特性判决方法................................................................................................ 41

8.3.2 频域线性预测及矢量量化(FLPVQ) ............................................................... 42

8.3.3 多分辨率分析........................................................................................................ 43

8.3.4 量化域方极坐标立体声变换(PQ-SPSC) ........................................................ 44

8.3.5 上下文位平面编码(CBC)................................................................................ 45

8.4 主要模块性能比较 ................................................................................................... 47 9 对国内音频编码研究的建议 ......................................... 48

附 录 A 主要缩略语 .................................................... 49

A.1 缩略语 ....................................................................................................................... 49

http:/

/www.pt

sn.ne

t.cn

Page 4: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

1

音频编码技术国内外标准分析

1 概述

由于数据传输在 IP 网络的广泛应用引起音视频技术在商业领域更为广泛的使用,同

时无线系统的传输在今后可能采用 IP 的方式。因此,IP 通信将成为今后无论是在有线还

是在无线通信领域都占有主导地位。鉴于 IP 通信是今后通信发展的方向,在 IP 通信中所

使用的音频编解码技术也引起越来越多人的关注和兴趣。

在音频编码标准的发展中,一直以来主要由国外的公司所主导,包括语音编码标准

ITU-T G..711、G..722 等和音频编码标准 MPEG。随着对通信中的音频质量要求的提高,

对音频编码技术的研究又再次活跃,为国内相关技术的发展提供了很好的契机。

本研究报告研究对象为现有的和正在研发的国内外主要的音频编解码技术,国外技术

主要是 ISO/IEC 和 ITU-T 两大组织所制定的音频标准,国内技术是 DRA 和 AVS 技术。

2 MPEG 技术

2.1 MPEG 简介

MPEG(Moving Picture Expert Group)由 ISO(International Standard Organization)

与 IEC(International Electronic Committee)于 1988 年联合成立,致力于运动图像

和伴音编码的标准化工作。目前已经推出 MPEG-1、MPEG-2、MPEG-4 、MPEG-7,MPEG-21、

MPEG-A、MPEG-B、MPEG-C、MPEG-D、MPEG-E 标准。其中 MPEG-1、MPEG-2、MPEG-4 均定义

了相应的音视频编码标准。

MPEG-7 定义为多媒体内容描述接口(multimedia content description interface),

它为各类多媒体信息提供一种标准化的描述,这种描述与内容本身有关,允许快速和有效

的查询用户感兴趣的资料,不涉及具体的音频编解码技术。

MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用

于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

效、透明、互操作的方式交换、访问、消费、交易等处理数字项所需要的技术。它也不涉

及具体的音频编解码技术。

MPEG-A 定义为多媒体应用格式(multimedia application formats),它的主要任务

是考虑到 MPEG 标准的差异性,提供一种应用格式,在应用级别上提供内部的互操作能力。

MPEG-B 定义为系统技术(system technologies),用以规范技术,使其能够用于系统

间。如:有效的压缩和传输 XML 文件的方法。

MPEG-C 定义为视频技术(Video technologies)。

MPEG-D 定义为音频技术(audio technologies),主要任务是处理环境中(尤其是指

环绕下)的语音和音频。

MPEG-E 定义为多媒体中间件(Multimedia Middleware),用以处理多媒体系统的中间

设备。

http:/

/www.pt

sn.ne

t.cn

Page 5: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

2

2.2 MPEG 音频编解码技术分析

于 1992 年完成的 MPEG-1(ISO/IEC 11172-3)音频压缩标准,它分为三种模式(layer I,II,III),layer III 就是为人所熟知的 mp3。

2.2.1 MPEG-1 Audio 2.2.1.1 MPEG-1音频编码的性能:

(1) 编码器输入:采样率为 32kHz、44.1kHz 或 48kHz,量化精度为 16 位的 PCM 编

码的 20-20kHz 数字音频信号。 编码器输出:32-192 kbps 单声道,64-384kbps 双声道的 MPEG-1 格式的比特流

(2) 支持 4 种不同模式: – 单通道; – 双通道(二个独立的声音信号编码在一个比特流中); – 立体声(左、右声道的信号编码在一个比特流中); – 联合立体声(利用左、右声道信号的相关性,降低输出比特流的码率);

(3) 提供三个独立的压缩层次见表 1。 表 1 MPEG-1 音频压缩层次

分 层 延迟时间(ms) 压缩方法 应用 Layer 1 19-50 MUSICAM简化版本 小型数字合式磁带 Layer 2 35-100 MUSICAM 数字音频广播,VCD等 Layer 3 59-150 MUSICAM与ASPEC结合 ISDN上的声音传输

(4) 编码后的数据流支持循环冗余校验 CRC(cyclic redundancy check)。 (5) 支持在数据流中添加附加信息。 下面对表 1 中两个压缩方法进行简要介绍。

MUSICAM ( Masking pattern adapted Universal Subband Integrated Coding And Multiplexing)掩蔽型自适应子带编码和复用技术是较为典型的基于心理声学模型的编码技

术,如图 1 所示,它首先将输入数据通过时频变换转换到频域并划分为若干子带,通过心

理声学模型计算每个子带上的掩蔽门限,接着根据量化误差小于掩蔽门限的准则确定比特

分配方法, 后形成码流输出。 ASPEC(Adaptive Spectral Perceptual Entropy Coding)自适应谱感知熵编码技术也是一

种基于心理声学模型的编码技术,如图 2 所示,它首先将输入数据通过 MDCT 变换转换

到频域。为消除变换过程中所产生的混叠噪声,还要对数字音频信号进行时域抗混叠处理。

然后用掩蔽门限值去控制各频段的量化特性和编码位数,再进行霍夫曼编码输出。 http:/

/www.pt

sn.ne

t.cn

Page 6: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

3

图 1 MUSICAM 编码框图 图 2 ASPEC 编码框图

2.2.1.2 Mp3 Pro MP3 音乐文件以较低码率进行压缩时会明显感觉到声音高频部分丢失的现象。为了能

够在低码率下获得较高音质,一项称作 SBR(频带复制)的技术被用于 Mp3 Pro 编码中,

其主要作用在于恢复声音中的高频分量,使得以低码率压缩的 Mp3 文件音质得到显著的

增强。 SBR 大的优势就是在低速率下实现非常高效的编码。MP3Pro 编码时,编码器将音

频分为两部分。一部分是将音频数据中的低频段部分分离出来,通过传统的 MP3 技术编

码得出正常的 MP3 音频流。另一部分则是将分离出来的高频段信号进行编码并嵌入到

MP3 流中,传统的 MP3 解码器会将其忽略掉,而 MP3 Pro 解码器可从中还原出高频信号,

并将两者进行组合,得到宽带的音频,达到增强音质的作用。

2.2.2 MPEG-2 MPEG-2 标准委员会定义了两种音频数据压缩格式 (1) MPEG-2 Audio (ISO/IEC 13818-3),由于与 MPEG-1 相兼容,又称为 MPEG-2 BC

(Backward Compatible)后向兼容标准。 (2) MPEG-2 AAC (ISO/IEC 13818-7, Advanced Audio Coding),由于不与 MPEG-1 相兼

容,也称为 MPEG-2 NBC(Non-Backward-Compatible)非后向兼容标准。 2.2.2.1 MPEG-2 Audio

MPEG-2 Audio 是对 MPEG-1 的扩充 – 增加了 16kHz、22.05kHz 和 24kHz 采样频率; – 扩展了编码器的输出速率范围,由 32~384kbps 扩展到 8~640kbps; – 增加了声道数,支持 5.1 声道和 7.1 声道的环绕立体声。

2.2.2.2 MPEG-2 AAC MPEG-2 AAC 与 MPEG-2 audio 采取了不同的标准化的方式,它将系统分解成一系列

必须和可选的模块(工具),对模块进行定义。 a) MPEG-2 AAC 的性能

采样频率:从 8kHz 到 96kHz, 编码器输入:单声道、立体声和多声道的声音。 多可支持:48 个主声道、16 个低频音效通道 LFE (low frequency effects)、16

http:/

/www.pt

sn.ne

t.cn

Page 7: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

4

个配音声道(也称为多语言声道)和 16 个数据流。 在压缩比为 11:1(即每个声道数据率为 44.1×16/11= 64kbps),5 声道的总码率为

320 kbps 的情况下,重建声音与原始声音之间几乎无区别。 与 MPEG-1 layer II 相比,MPEG-2 AAC 压缩率可提高 1 倍,且质量更好,与

MPEG-1 layer III 相比,在音质相同的条件下码率仅为原 mp3 码率的 70%。 b) MPEG-2 AAC 编码器的分类 图 3 给出了 MPEG2-AAC 编码器框图,MPEG2-AAC 编码器分为三类: (1) Main Profile,除了增益控制工具之外,使用了其它所有模块,能提供 好的声音

质量,但对存储容量和处理能力方面的要求比较高。 (2) LC Profile(Low Complexity Profile),不使用预测模块,瞬时噪声整形(TNS)滤波

器的级数也有限,对存储容量和处理能力的要求明显降低。 (3) SSR Profile(Scalable Sampling Rate Profile ),使用增益控制工具,不使用预测模

块,不使用声道耦合工具,TNS 滤波器的级数和带宽也都有限制。 c) 主要模块功能分析

图 3 MPEG2-AAC 编码器框图

http:/

/www.pt

sn.ne

t.cn

Page 8: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

5

增益控制模块(Gain control module)主要是由多相正交滤波器(PQF)、增益检测器(gain detectors)及增益修正器(gain modifiers)组成。先利用多相正交滤波器将输入信号分割为 4个频带,除了 低频带不做增益控制外,其余频带利用增益检测器与增益修正器去做能量

的控制与衰减。在解码端可以按照不同的带宽要求,通过忽略输入信号的高频部份,只对

低频部份解码,来获得低采样率输出。 MPEG-2 AAC 编码器中,AAC 提供了 256 与 2048 两种窗长度作为选择。通过感知熵

来判断输入信号是瞬态信号还是稳态信号。如果判断到输入信号是瞬态信号就采用短窗以

提高时域分辨率,如果判断到输入信号是稳态信号就采用长窗以提高编码效率,并且引入

了两个过渡窗以保持输出信号的连续性。 滤波器组滤波完成以后数据便进行瞬时噪声整形(TNS)。瞬时噪声整形工具用来控

制量化噪声的瞬时形状,消除预回声现象。 强度立体声编码(Intensity stereo coding)针对人耳对低频信号的能量与相位都很敏感。

而对于高频信号能量较为敏感,对高频信号相位不敏感的特性,在 AAC 编码中,对左右

声道频谱系数只传出一组合并后的频谱系数放置于左声道,右声道中频谱系数都被设成

零,以此来降低编码所需的位数。这是一种有损压缩,用于低码率传输。

位置信息: 2[ ]

_ [ ] (2 log ( ))[ ]

l

r

E sfbis position sfb NINT

E sfb= ⋅

谱系数:][][*])[][(][

sfbEsfbEispecispecispec

r

lrli +=

其中 ][ispeci 为传出的频谱系数, ][ispecl 与 ][ispecr 分别为左、右声道的频谱系数,

][sfbEl 与 ][sfbEr 分别为该频带的左右声道的能量。

预测模块主要作用是通过后向自适应算法来减小平稳信号的冗余度,减少比特消耗。

与强度立体声编码工具相对应的另外一种立体声编码工具是 M/S(Mid/Side),该方法

利用左右声道的相关性,令 M=(L+R)/2,S=(L-R)/2 进行传输,是一种无损压缩方式。

后频谱系数经过尺度因子变换,量化后,采用 Huffman 编码输出。

2.2.3 MPEG-4 2.2.3.1 MPEG-4 profile

MPEG-4 音频部分提供了 11 种类型(profile),如图 4 所示,其中 MPEG-4 main audio profile 兼容 MPEG-2 AAC 定义的三种类型。尤其值得一提的是 AAC 和 SBR,参数立体声

编解码(PS)构成的 High Efficiency AAC V2 profile 被 3GPP 选定为移动音频标准之一。 http:/

/www.pt

sn.ne

t.cn

Page 9: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

6

图 4 MPEG4 profile

2.2.3.2 MPEG-4 Tools MPEG4 根据编码对象将音频标准分为自然音频编码和合成音频编码两大类。在对自

然音频编码方面提供了参数编码,码激励线性预测编码,时间/频率编码三种编码方案;

在合成音频编码方面提供了结构音频和文本到语音的编码方案。在 MPEG2 基础上扩充了

如下工具: a) 码激励线性预测编码(Code excited linear prediction) MPEG-4 的 CELP 是一种自然语音编码工具,支持 8KHz 和 16Khz 采样。8KHz 时采

样带宽为 100~3800Hz,;6KHz 时采样带宽为 50~7000Hz。包括语音端点检测(VAD)、不

连续传输(DTX)单元和舒适噪音产生(CNG)模块. CELP 支持多码率编码,在 8Khz 采样时支持码率从 3.85Kbit/s 到 12.2Kbit/s 变化,在

16KHz采样时支持码率从10.9Kbit/s到23.8Kbit/s变化, 小的变化步长可以达到0.2Kbit/s。 CELP 支持带宽的可伸缩性。可伸缩性是通过把增强码流加入到核心码流来实现的,

由于这些增强码流包括输入信号的细节特点或更高频带的成分,从而减小了信号的失真。

http:/

/www.pt

sn.ne

t.cn

Page 10: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

7

b) 谐波矢量激励编码 (Harmonic vector excitation coding) 谐波矢量激励编码 HVXC 是一种极地码率的参数语音信号编码器,它允许对语音信号

以 8kHz 采样,实现 2~4kbit/s 的编码,它也可以采用可变比特技术使码率控制在 1.2~1.7kbit/s。它将语音分割成 256 或 160 个采样值,加窗后进行 LPC 分析,用 LSP 逆滤波以

实现对当前帧的预测。 c) 谐波和特征线加噪声(Harmonic and Individual Lines plus Noise) 谐波和特征线加噪声 HILN 编码工具允许对音乐等非语音信号以 8kHz 或 16kHz 采样,

实现码率 4~16kbit/s 的编码。它的基本原理是对输入信号分析,依次提取 3 类参数:谐波

线(用该谐波成分的基频以及它的谐波部分的包络来描述),特征线(每个特征线的频率

和幅值),噪声(描述噪声谱的包络来描述), 后量化后传输。HILN 也可以实现码率

的可分级性,它采用扩展的码流传输附加的正弦音成分,以改善信号的解码质量。 d) 正弦编码 (Sinusoidal Coding) 正弦编码是一种全带宽高质量音频编码工具,编码工具将单声道和立体声信号分解为

一系列对象进行参数化和低比特编码。它包含 4 个工具:1、瞬变工具(transient tool)用

以捕捉动态成分,2、正弦工具(sinusoidal tool)用以代表确定性成分,3、噪声工具(noise tool)用以捕捉统计量或者非确定性部分,4、参数立体声编码工具(parametric stereo coding tool)。

e) 结构音频工具(Structured Audio toolset) 结构音频工具集提供了关于合成音乐,声音效果,交互式多媒体场景合成声音与自然

声音的同步等方面有效和灵活的描述。可以使用较低的带宽合成较高质量的声音信号。 具体工具有: (1)结构化音频交响乐语言 SAOL(the Structured Audio Orchestra Language.) SAOL 是一种数字信号处理语言,可使用于任意合成的传输描述及部分比特流效果算

法的描述,SAOL 的语法和语义作为 MPEC-4 的一部分予以标准化。SAOL 语言是一种

完全新型的语言,任何目前已知的声音合成方法都可以用 SAOL 来描述,凡是能用信号流

程网络表示的数字信号处理过程都可用 SAOL 来表示。SAOL 的特点是具有改进的语法、

一系列更小的核心功能、一系列附加的句法,这使得相应的合成算法的编辑变得更加简化

容易。SAOL 已经定义了的声音合成方法包括:FM 合成、物理模型合成

(physical-modeling)、采样合成、粒度合成(granular synthesis)、负合成、FOF 合成等,

并且可以混合使用。 (2)结构化音频乐谱语言 SASL(the Structured Audio Score Language.) SASL 是一种简单记分和控制语言。用来描述在合成声音产生过程中用 SAOL 语言传

输的声音产生算法是如何运作的。SASL 简化了场景的参数化描述,这些描述包括注释,

控制,动态波表的产生等。SASL 相对于 MIDI 更加灵活,可以表达更加复杂的功能,但

其描述更加简单。 (3)结构化音频采样值分组格式SASBF(Structured Audio Sample Bank Format) SASBF允许传输在波表合成中使用的分组的音频样本数据,并描述它们使用的处理算

http:/

/www.pt

sn.ne

t.cn

Page 11: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

8

法。它与MIDI的作用类似。 (4)二进制格式场景描述格式工具 BIFS (MPEG-4 Binary Format for Scenes) BIFS 工具允许作者描述场景信息内容。多样音源可以被混合,相互控制,分组,延

迟,3D 混合处理,虚拟描述等。 f) 混合/多级伸缩 TTS 转换接口(Hybrid/Multi-Level Scalable TTS Interface) MPEG-4 的混合/多级伸缩 TTS 转换接口是传统 TTS 的超集,这个扩展接口可以利用

自然语音和输入文字合成更高质量的语音,这个转换功能将传统语音合成推广到自然语音

编码及其应用领域,如电影配音等。 g) 差错保护 在 MPEG-4 音频标准中提出了差错保护模型,码流中的数据甚至比特按照它的差错灵

敏度(ESC, error sensitivity categories)归类,对不同的级别采用不等错误保护(UEP,unequal error protection ),然后对每个级别提供前向纠错编码(FEC, forward error correction codes)和循环冗余编码(CRC, cyclic redundancy codes)。上述码流经过交织后再使用一次前向纠错

编码后输出。 MPEG-4 还特别提供了针对 AAC 的差错恢复工具,以提高噪声信道下的净荷传输质

量。AAC 比特流的部分应用了改进的编码,分为: (1)虚拟码本工具(VCB11,virtual codebooks tool),用来限制有差错的频谱成分的

大值。 (2)可逆变长编码工具(RVLC,Reversible Variable Length Coding tool),可用来取代 AAC

尺度因子的哈夫曼和 DPCM 编码,并使用对称码字对比例因子进行前向和后向编码。 (3)霍夫曼码字重排工具(HCR,Huffman codeword reordering),它设计一些位置固定的

先验码字(PCW,priority codewords),可以独立于其它非先验码字。其它非先验码字的位

置由一套传播误差较小的算法确定。 2.2.3.3 GA(General Audio Coding)

MPEG-4 AAC 为了保证编码比特率之间的平滑过渡以及比特率和带宽的分级性,在时

频编码工具中定义了通用音频编码(General Audio Coding)工具。从低码率的编码器开始,

通过增加增强部分,使编码质量得到提高。MPEG-4 音频的通用音频编码覆盖了从

6kbit/s/ch 到 64kbit/s/ch 的码率范围。图 5 是 MPEG-4 通用音频编码器的方框图。

http:/

/www.pt

sn.ne

t.cn

Page 12: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

9

图 5 MPEG4 GA 编码器框图

从图 5 可以看出 MPEG4 GA 编码器在 MPEG2-AAC 基础上增加了以下工具: a) 感知噪声替换 Perceptual noise substitution(PNS) 采用感知噪声替换工具时,针对类噪声信号不传输该信号的实际谱系数,而只传输标

志位和能量等级,在解码器中,根据码流中标志的能量等级把一个随机生成的噪音频谱数

据插入相应的频谱区域中。 b) 变换域加权交织矢量编码 TwinVQ(the transform-domain weighted interleaved vector quantization)

http:/

/www.pt

sn.ne

t.cn

Page 13: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

10

TwinVQ 的编码工具是用来提高音乐信号较低码率编码时的编码效率。其基本思想是

在正常频谱中应用交错的矢量量化方法,该方法用来代替 MPEG-4 AAC 中使用的标量因

子和霍夫曼编码的传统编码方法。 c) 比特切片算术编码 BSAC(bit-sliced arithmetic coding)

MPEG-4 BSAC 是结合 AAC 编码使用的编码工具,以代替频谱数据和比例因子的无噪

声编码(noiseless coding)。它提供很好的颗粒伸缩性,提供每个声道 1kbit/s,立体声 2kbit/s的步长。为了取得较好的伸缩性,它使用了一种比特切片的技术应用于频谱数据。首先将

量化后的频谱值按频带分类,每一类中的数据用二进制来表示。对 高位首先处理,然后

比特片采用算术编码方式得到 小冗余度的熵编码。为了有效的运用颗粒可伸缩性能,数

据可以一步步分层分成若干子帧,根据周围环境的因素动态的调整服务质量。 d) 长时预测(Long Term Prediction)

长时预测是个有效消除连续帧间冗余的工具,对具有明显基音特征的信号部分尤其有

效。其计算复杂度小于后向自适应滤波。预测表达式为: 2

1

( )( )m

a kk

k mP z b z− +

=

= ∑ 式中 a代表长延时, kb 为预测系数,它们通过 小均方误差的方式来估计。由于长时

预测采用前向滤波(系数放在边带信息中),因此对数据的截断误差及传输过程中的谱系

数误码不敏感。 e) 频带复制 SBR (Spectral Band Replication)

频带复制技术是与 AAC 通用编码工具一起使用的带宽拓展工具,使用少量数据参数

化描述编码和解码端的高频谱数据。相对于传统 AAC 编码可以降低码率或者在同等码率

下提高输出音频的质量。 2.2.3.4 EAAC+

EAAC+音频编解码是由 MPEG-4 AAC,SBR 和参数立体声编解码构成,AAC 是核

心编解码部分,SBR 提供频谱拓展的工具,而参数立体声编码可以实现在听觉质量损失不

大的情况下,在较低的码率下实现立体声编码。另外 EAAC+还提供了差错隐藏工具以提

高抗丢包的能力,提供了从立体声到单声道的下混合工具,使立体声码流可以单通道输出。

而 spline 重采样工具可以使输出信号的采样率以不同于输入码流的采样率输出。 3GPP 提供了单声道和立体声编码方式,对于立体声编码可以采用两种模式:应用于

低比特率的参数立体声和应用于较高码率的 M/S 立体声编码。对于采用 M/S 立体声编码

的码流,EAAC+推荐采用 SBR 的低功率模式(Low Power mod)解码。 对于只提供单声道输出的终端来说,不需要采用参数立体声工具,解码器跳过参数立

体声数据直接解码单声道部分。 图 6 提供了由 AAC,SBR,PS 工具构成的 AAC+,EAAC+关系图:AAC+由 AAC-LC

和 SBR 工具构成,EAAC+由 AAC+和 PS 构成,因此 EAAC+是 AAC+和 AAC 的超集。 http:/

/www.pt

sn.ne

t.cn

Page 14: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

11

aacPlus(= MPEG-4 High Efficiency AAC)

Enhanced aacPlus(= MPEG-4 High Efficiency AAC + MPEG-4 Parametric Stereo)

AAC-LC SBR ParametricStereo

图 6 EAAC+框架

图 7 是 EAAC+编码框图,如果输入信号是立体声信号,而输出信号指定为单通道信

号,则输入的 PCM 时域信号首先进入立体声到单声道下混单元,否则就跳过该模块。接

着,如果输入信号采样率 infs 与编码采样率 encfs 不同时,则要经过 IIR 重采样滤波器进行重

采样。IIR 重采样滤波器执行 3:2 下采样或者 1:2 的上采样。 图 7 中上支路 SBR 编码器的输入采样率就是编码采样率 encfs ,而下支路 AAC 编码器

的输入采样率是经过 2:1 下采样的 / 2encfs 。AAC 编码采用 LC 模式。SBR 编码器首先经

过 QMF 滤波器,进而得到谱包络和输入信号的特征信息(高频噪声信号掩蔽成份,谐波

成份等)。当立体声码率小于等于 44kbit/s 时就采用参数立体声编码,相关信息是嵌入在

SBR 码流中的。如果输出是单声道,那么还要进行下采样的 QMF 滤波以得到 AAC 编码

所需要的时域信号,这时先前的 2:1IIR 下采样滤波器就不被激活。

图 7 EAAC+ 编码框图

图 8 是 EAAC+解码框图,针对移动应用环境下可能存在丢包的情况,AAC,SBR,PS 各自首先采取丢包补偿的措施。然后,低频 AAC 解码后的时域信号经过 32 通道的 QMF分析滤波器,与 SBR 提供的指导信息以及谱包络合成高频信号。如果输入是单声道,而

http:/

/www.pt

sn.ne

t.cn

Page 15: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

12

输出是可以转换为立体声信号的,这一过程是由参数立体声合成与合成 QMF 共同完成。

合成 QMF 为 64 通道,采样率为 encfs ,用于输出时域信号。通过使用下采样工具,输出的

采样率也可以变为 / 2encfs 。

图 8 EAAC+ 解码框图

根据移动设备的需要,SBR 算法还分别提供了高质量 SBR 和低功率 SBR 算法。高质

量 SBR 算法使用复数来表示子带采样,这样随后的计算都是复运算;低功率 SBR 算法则

使用实数表示采样,计算量便大大减小了。由于复值的滤波器组是为了子带滤波在降采样

时防止混叠的,而低功率 SBR 算法没有这样的特性,于是采用混叠检测和混叠消除技术

以避免强音调成分发生混叠。

图 9 AMR-WB+与 EAAC+ 单通道性能比较

http:/

/www.pt

sn.ne

t.cn

Page 16: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

13

图 10 AMR-WB+与 EAAC+ 立体声性能比较

从图 9 和图 10 可以看出在低码率时,EAAC+立体声音乐性能要优于 AMR-WB+,而语音音质要差于 AMR-WB+。 2.2.3.5 AAC-LD

语音会话和视频会话对分组延迟有较高的要求,一般至少要低于 100ms,MPEG-AAC编码属于感知编码,感知编码的延时主要由帧长度延时、滤波器组延时、前向块切换延时

和码流接收缓冲延时这四部分组成,并且这样的总体延时是和采样率成线形反比的。 对于一个 48KHz 采样 64kbps 码率的典型 AAC 编码:

帧延时 : 1024/48=21.33ms(1024 个采样) 滤波器组延时 : 1024/48=21.33ms(1024 个采样) 前向块切换延时 : 576/48= 12ms (576 个采样) 码流接收缓冲延时: 74.7 ms 总体延时 : (1024+1024+576)/48 ms+74.7 ms =129.4 ms

明显看出这时延时较大,为此 MPEG 推出了 AAC-LD(low delay)以满足实时双工通

信的需求。 AAC-LD 支持 48K Hz、44.1K Hz、32K Hz、24K Hz、22.05K Hz 采样。AAC-LD 的

帧长度减小到 AAC 的一半,为 512 或 480 个采样,同时其滤波器组的长度也较少到了 512或 480 个采样;同时由于延时还取决于滤波器组的延时,所以 AAC-LD 采用如图 11 所示

的低交迭的 Zero-Padded 窗函数来产生低交迭的子带滤波器组(图 12)。图中 LD:ZP win是低延时零交迭窗,LD:Sin win 是低延时正弦窗,AAC:Sin long win 是 AAC 中的长正

弦窗。 htt

p://w

ww.ptsn.

net.c

n

Page 17: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

14

图 11 零交迭窗函数

图 12 滤波器组

AAC-LD 取消了在 AAC 通用编码器中存在的前视、块切换和码流接收缓冲。这样一

系列的改进使得 AAC-LD 的延时能够控制在 100ms 以下,其在 64kbps 的典型延时低于

60ms。表 2 为不同编码器在不同采样率,码率情况下的延时比较: 表 2 编码器延时比较

编码器 码率(Kbps) 采样率 (KHz) 延时 (ms)

AAC-LD stereo 128 32 80 AAC-LD stereo 128 48 56 AAC-LD mono 64 32 74 AAC-LD mono 64 48 50

AAC stereo 128 48 172 Layer3 stereo 128 48 326 Layer3 stereo 128 24 398

G.722 64 16 10

对 AAC-LD 与 AAC,WCELP 和 G.722 作不同码率下的横向比较,当使用多种音频流

对 64Kbps 的 AAC-LD 和 56Kbps 的 AAC 编码器测试 mos 值时发现,其平均编码质量几

乎相同(表 3)。

http:/

/www.pt

sn.ne

t.cn

Page 18: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

15

表 3 64Kbps 的 AAC-LD 和 56Kbps 的 AAC 编码器的平均 mos 得分 CODEC 平均得分

ER AAC LD 64 Kbps 所有音频流 4.338 AAC main 56 Kbps 所有音频流 4.341

在 32Kbps 的码率下 AAC-LD 和 AAC(24Kbps),WCELP(23.8Kbps)与 G.722(64Kbps)作比较,结果如表 4 所示:

表 4 四种编码器对音乐音频流和多种语音音频流编码测试的平均得分 CODEC

(所用码率) 多种音乐音频流平

均得分(mos) 多种语音音频流平

均得分(mos) AAC-LD(32Kbps) 3.95 3.2

AAC(24Kbps) 4.1 3.3 WCELP(23.8Kbps) 1.25 3.9

G.722(64Kbps) 3.8 4.5

从表 4 编码性能比较中可以看出在低码率时 AAC-LD 对音乐处理的表现还较为出色,

在对语音的编码上尚不尽如人意。 2.2.3.6 AAC-ELD

MPEG-4 Enhanced Low Delay AAC 标准化的工作于 2008 年 1 月完成。AAC-ELD 是

一个高质量低延时的编码器,主要结合了 MPEG-4 AAC Low Delay 和 Spectral Band Replication (SBR)技术。

它的主要特征有: 1) 码率从 24kbit/s 到 64 kbit/s; 2) 低延时算法:从 64 kbit/s 的 15ms 到 24kbit/s 的 32ms; 3) 全频带,支持多通道,适用于语音和音乐。 主要应用于: 1) 超宽带移动视音频会议; 2) UMTS 广播设备; 3) 多通道的视频会议等。

2.2.3.7 SAOC SAOC(spatial audio object coding)是在 SAC(spatial audio coding)基础上发展起来的。

SAC 是近年来兴起的一项新技术,它利用人耳对空间声音的感知特性,使用原先用于双通

道立体声的码流来传送高质量的环绕声音。在 SAC 基础上,MPEG 开发了新一代的后向

兼容的技术标准 SAOC。在接收端,SAOC 可以对声场景中的音频对象选择性的恢复。

2.3 MPEG WG11 的工作情况

2.3.1 已经完成的标准化工作

http:/

/www.pt

sn.ne

t.cn

Page 19: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

16

表 5 MPEG 已完成的标准化工作 11172 (MPEG-1) 在1.5Mbit/s速率下对活动影像和关联音频的编码

Part 3 音频 13818 (MPEG-2) 对活动影像和关联音频的通用编码

Part 3 音频 Part 7 高级音频编码

14496 (MPEG-4) 音视频对象编码 Part 3 音频

23003 (MPEG-D) MPEG 音频技术 Part 1 MPEG 环绕立体声

2.3.2 工作计划和时间安排 表 6 MPEG 工作计划和时间安排

Std Pt Edit. Project Description CfP WD CD FCD FDIS4 3 2005 Cor.5 07/04 07/104 3 2005 Cor.6 07/04 07/10

4 3 2005 Amd.8 原始音频文件信息的

MP4FF 集 06/10 07/01 07/04 07/10

4 3 2005 Amd.9 AAC-ELD 06/10 06/10 07/04 07/10D 1 200x Amd.1 一致性测试 06/07 06/10 07/04 08/01D 1 200x Amd.2 参考软件 06/07 06/10 07/04 08/01

2.3.3 目前关于音频的相关任务(包括进行中和还未开展) AAC-ELD:为 MPEG4-AAC 提供新类型,主要采用 AAC-LD+SBR 技术,可以降低

编码延时并且提高压缩效率。 Std Pt Amd Req Short description 4 3 9 AAC-ELD 结合了 AAC-LD 和 SBR 技术,使得该编解码器具有较低延时和更

高的压缩效率。

Audio and speech coding:统一语音和音频编解码器工作。

Std Pt Amd Req Short description 该技术研究单一统一的编解码器,其性能对于语音接近已有的语音编解码器性

能,对于音频接近已有的音频编解码器性能。而且,该编解码器码流应当具有

可伸缩性。

Spatial Audio Object Coding:关于考虑环境因素的编解码器研究

Std Pt Amd Req Short description D 1 1 空间面向对象的音频编码器首先将若干对象音频组合成单通道或者立体声信

号,而根据人耳对声场景的感知将若干对象音频的参数提取出来,这些参数用低

比特码流编码成边带通道,在解码端场景信息可以被恢复出来。

http:/

/www.pt

sn.ne

t.cn

Page 20: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

17

MPEG Surround Reference Software:MPEG-D 参考代码

Std Pt Amd Req Short description D 1 2 提供 MPEG 环绕编解码器的实施方法,还包括提供用于下混信号的编解码器,

举例来说 MPEG-4 AAC 或者 MPEG-4 HE-AAC。 在通信信道下使用 MPEG 环绕编解码器的方法已经定义为基本编解码器一部

分,举例来说如 MPEG-4 AAC 或者 MPEG-4 HE-AAC。

MPEG Surround Conformance:MPEG-D 一致性检测

Std Pt Amd Req Short description D 1 1 提供测试码流,参考解码波形和一致性检测方法,用以测试 MPEG 环绕码流和

解码器性能。注意一致性测试需要基于一个参考编解码器,这点在文档中已有

说明。参考编解码器已包含于 MPEG-4 AAC 或者 MPEG-4 HE-AAC 中。

Audio coding standards:为 MPEG4-PART3 提供勘误版本

Std Pt Cor Req Short description 1 3 2 3 4 3 5 DST and MP3on4 4 3 3/1 SLS

目前 MPEG WG11 也在做一个新的编码器,它的目标是能对语音和音频内容提供较好

的性能。它的主要应用范围包括多媒体下载业务,数字广播,移动电视,电子音频书籍等。

进度安排如下: 会议/时间 行动 第 82 次 MPEG 会议 发布制定统一语音频编码技术建议

发布评估指南的草案 第 83 次 MPEG 会议 发布 终的评估指南 2008 年 4 月 21 日 提案者必须注明参加制定建议的目的 第 84 次 MPEG 会议 发布评估的工作平台 第 85 次 MPEG 会议 要求建议反馈权利

参考模型 0 技术的选择 第 86 次 MPEG 会议 参考模型 0 的提案者提交工作草案文本和参考软件

2.4 IPR 调查及评估

2.4.1 MP3 MP3 主要涉及两个专利池,即汤姆逊公司管理的 MP3 专利池,以及 SISVEL S.P.A 公

司和 Audio MPEG 公司管理的专利池。 汤姆逊公司管理的 MP3 专利池:专利权主要属于汤姆逊公司、Coding 技术公司、

Fraunhofer 公司。 SISVEL S.P.A 公司和 Audio MPEG 公司管理的专利池:主要为 ISO/IEClll72-3 和

ISO/IEC13818-3 这两个标准的必要专利,专利主要归飞利浦公司、法国电信集团拥有。在

这些专利中,SISVEL S.P.A 公司仅仅享有对全部非美国专利的独占许可权;Audio MPEG

http:/

/www.pt

sn.ne

t.cn

Page 21: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

18

公司享有美国专利的独占许可权。两家公司的专利许可费一致。 SISVEL 负责的美国专利清单:共 16 件见表 7。

表 7 SISVEL 负责的美国专利列表 标题 专利号

Method for transferring digital audio signal US Patent No. 4,972,484 Digital transmission system using subband coding of digital signal

US Patent No. 5,214,678

US Patent No. 5,323,396US Patent No. 5,539,829US Patent No. 5,606,618US Patent No. 5,530,655US Patent No. 5,777,992

Digital transmission system, transmitter and receiver for use in the transmission system, and record carrier obtained by means of the transmitter in the form of a recording device

US Patent No. 6,289,308 Transmitter, receiver and record carrier for transmitting/receiving at least a first and a second signal component

US Patent No. 5,481,643

Transmission and reception of a first and a second main signal component

US Patent No. 5,544,247

Digital 3-channel transmission of left and right stereo signals and a centre signal

US Patent No. 5,610,985

Method for determining the global masking threshold in a bitrate-reducing source coding

US Patent No. 5,740,317

Encoding of a plurality of information signals US Patent No. 5,878,080 Encoding of a plurality of information signals US Patent No. 5,960,037 Method for transferring digitized, block-coded audio signals using scale factors

US Patent No. 5,991,715

Encoding apparatus for encoding a plurality of information signals

US Patent No. 6,023,490

2.4.2 MPEG-AAC MPEG-4 Audio 授权委员会由以下企业组成:美国 AT&T、美国杜比实验室、电子和

电讯研究协会(ETRI)、法国电信、德国 Fraunhofer IIS、富士通、NEC、诺基亚、NTT、飞

利浦电子、三星电子、索尼和 VoiceAge。 MPEG-4 Audio 授权委员会(Licensing Committee)选定美国杜比实验室旗下的美国

Via Licensing 公司负责“MPEG-4 Audio”专利的授权管理业务。MPEG-4 Audio 授权委员会

和 Via Licensing 公司共同协定授权规则。授权规则涵盖的各个规范中的技术至少包括如下

内容(2002 年底): ——高质量音频规范:AAC LC、AAC LTP、AAC Scalable、CELP、ER AAC LC、ER

AAC LTP、ER AAC Scalable 和 ER CELP; ——语音音频规范:CELP、HVXC 和 TTSI; ——ER AAC LC、ER AAC Scalable、ER TwinVQ、ER BSAC 和 ER AAC-LD。

http:/

/www.pt

sn.ne

t.cn

Page 22: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

19

3 ITU-T G.718 标准

3.1 ITU-T SG16 WP3 Q9 简介

ITU-T G..718 前身是 G.VBR,由 ITU-T SG16 WP3 的 Q9 负责标准制定工作。通过设

计一种新的语音编码技术来满足带宽的有效使用和减少转码次数的要求是 Q9 设计编码器

主要的特征。同时该编码器还可以和现有固定网络上的语音编码器实现互通。该可变速

率编码器将主要应用在:以太网;ATM 网络;第三代无线系统,如 CDMA 和 TDMA。 Q9 组的目标是开发一种具有变比特率的多层编码器,高的语音质量支持使用所有的

层,而普通的质量只是使用了核心层信息。比特率的选择基于许多网络的因素,如网络涌

塞情况,优先级别,QoS,带宽等。 Q9 组的主要任务是:定义编码器的性能指标;制定标准推荐书;制定超宽带扩展的

标准推荐书。Q9 课题开发的标准项目如表 8。 表 8 Q9 近年完成的主要标准化项目列表

标准编号 描述 完成时间 G.VBR NB/WB 可变速率编码器窄带和宽带部分 2008-04 G.VBR SWB/Stereo 可变速率编码器超宽带以及立体声部分的扩展 2008 年底

3.2 G..718 标准介绍

G..718 标准的开发分为两个部分,一个针对窄带、宽带部分的开发,另一个是针对超

宽带部分的开发。前者已经完成基线版本(Baseline codec)的选择阶段,Nokia 和 Voiceage公司联合提交的候选代码在 4 个候选编码器中成为优胜版本,其它各家基于该版本在其基

础上进行优化,因此,该项目进入到融合阶段,并已基本完成标准化工作。而对于超宽带

部分,还处于 ToR 指标讨论阶段。 3.2.1 G..718 窄带、宽带标准

G..718 窄带、宽带部分的标准描述了一个 8-32 kbit/s 可伸缩的宽带(50-7000 Hz)音频

/语音编码算法。它的码率总共分为 5 层。第一层为核心层,主要基于 ACELP 模型的编码

技术,该层的速率为 8kbit/s,第二层为 ACELP 模型的增强层,速率为 12kbit/s。前两层支

持窄带,宽带信号的输入和输出。后面三层为基于 MDCT 技术的增强层,仅支持宽带信

号的输入和输出。 表 9 G..718 的层结构

Layer Bitrate kbps Technique Sampling rate kHz

L1 8 Classification-based ACELP core layer 12.8

L2 +4 Algebraic codebook layer 12.8

L3* +4 FEC MDCT 12.8 16

L4* +8 MDCT 16

L5* +8 MDCT 16

http:/

/www.pt

sn.ne

t.cn

Page 23: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

20

由于该编码器的核采用的是 ACELP 模型,因此该标准的和目前的 3GPP 标准中的

AMR-WB 12.65kbps 模式兼容。同时该标准还具备 VAD、DTX 技术。 3.2.2 G..718 的 baseline codec 编/解码器 G..718 的 baseline codec 帧长度是 20 ms、延时是 54.75 ms、运算复杂度还在优化中。

默认情况下,编码器和解码器的采样率为 16KHz。

Speech Resampling12.8kHz Preemphasis

HP Filter(25 Hz)

ACELP(L1, L2)

Resampling12.8kHz Input Fs

HP Filter(25 Hz)

Error WeightingMDCTBitstream

+

-

ISF Extrapolation

Deemphasis

图 13 G..718 Baseline codec 编码器高层结构图

Old Weighted Synthesis

Bass PostfilterSynthesis

++

Temporal Noise Shaping

Reverse Weighting

BitstreamACELP(L1, L2) Deemphasis Resampling

12.8kHz Input FsHP Filter(25 Hz)

SynthesisWeighting

MDCT

图 14 G..718 Baseline codec 解码器高层结构图

3.3 标准参与厂商

参与窄带、宽带部分融合工作的厂商主要有:Nokia 和 Voiceage,爱立信、TI 和摩托

罗拉,松下,华为,西门子,诺基亚西门子,法国电信,ETRI,三星,高通。

3.4 G.718 超宽带、立体声标准

G..718 的超宽带、立体声部分还处于 ToR 讨论阶段,由于 ITU-T SG16 目前有两个课

题组 Q10 和 Q9 都在进行超宽带、立体声部分的开发,所以 ITU-T 建议两个课题组联合

http:/

/www.pt

sn.ne

t.cn

Page 24: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

21

开发超宽带项目,制定共同的 ToR 指标,目前该项工作由 Q23 组负责。在 2007 年 10 月

份会议上讨论如何制定通用 ToR 指标。

4 G.729.1 标准及其扩展技术

4.1 ITU-T SG16 WP3 Q10 简介 G.729.1 标准是由 ITU-T SG16 WP3 Q10 主导制定的语音编码标准。 ITU-T SG16 WP3 Q10 的目标是维护和扩展现有的语音编码标准:

维护:搜集语音编码标准的缺陷报告,评价它们的优点。制定操作者指导手册和

改进现有标准。 扩展:在异构网络(heterogeneous networks)的各种不同应用中,可能要考虑不同

的附加特征,如丢包掩藏、语音激活检测VAD、非连续传输DTX、舒适噪声生成CNG、

同步、降低运算复杂度、比特率扩展、带宽扩展等。 ITU-T SG16 WP3 Q10 的主要任务包括: (1)维护和扩展目前的 ITU-T 软件工具包和目前的语音编码标准,主要面向:

G..711, G..726, and G..727 G..728 G..729 G..729.1 G..723.1 G..722 G..719 G..722.2

(2)测试和使用新算法,以升级 ITU-T 软件工具包,以支持 ITU-T 信号处理方面的

活动,如: 信号处理框架工具 基本算子 回音消除模型(echo cancellation models) 信道模型,错误模式和统计(IP网络),无线网络和移动卫星系统

Q10 近年完成的 G.729.1 标准的主要项目见表 10 表10 Q10完成的G.729.1标准的项目

标准编号 描述 完成时间 G.729 Appendix II G.729 Annex B 在 VoIP 应用中的增强可选方案 1 2005 年 7 月

G.729 Appendix III G.729 Annex B 在 VoIP 应用中的增强可选方案 2 2005 年 7 月

G.729.1 8-32 kbit/s 分层宽带语音音频编码器,基本层为 G.729 2006 年 4 月

G.729.1 Annex A G.729.1 在 H.245 中的使用 2006 年 11 月

G.729.1 Annex B G.729.1 编解码器的浮点版本参考软件 2006 年 11 月

G.729.1 low delay G.729.1 低时延模式,是对标准正文的补充,因此不是

Annex 或 Appendix 2007 年 7 月

http:/

/www.pt

sn.ne

t.cn

Page 25: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

22

4.2 G.729.1 标准介绍

G.729.1 即 G.729EV 是 ETRI、FT、Siemens、Matsushita、Mindspeed 和 Voiceage 共

同完成的一个标准化项目。Samsung 也报名参与了该项目,但是因为 终技术方案难以与

其他各方融合,而且编码器性能较差,因此 终被淘汰,没有参与 后的技术融合。

目前,基于 IP 的多媒体服务应用越来越广泛。如何提高 VoIP 服务的语音质量成为用

户 关心的问题之一。提高语音质量的途径之一是将传统的窄带语音质量(300-3400Hz)

扩展到宽带语音质量(50-7000Hz)。

G.729 EV(Embedded Variable Bit Rate)是在 G.729 上的宽带扩展。可以和 G.729

进行互操作。它提供了码率的高度可伸缩性,能够适应各种不同业务和不同网络的要求。

嵌入式码流可能根据需要截断,得到所需的码率,不需要带外信令(outband signalling)。

G.729 EV 标准描述了一个 8-32kbit/s 可伸缩的宽带(50-7000Hz)音频/语音编码算

法。它的码率总共分为 12 层。

它能够在 14-32kbit/s 码率下对宽带信号进行编码。生成的嵌入式码流的码率伸缩步

长为 2kbit/s。在 8kbit/s 和 12kbit/s 码率下,G.729 EV 是一个窄带语音编解码器。在

8kbit/s 码率下,G.729 EV 码流能和 G.729、G.729A、G.729B 兼容[G.729A 是 G.729 编码

器的简化版本,G.729B 是带 VAD(活动话音检测)的静音压缩算法,两者结合可以有效地

降低码率,同时保持很好的合成语音质量]。

G.729 EV 的帧长度是 20 ms、延时是 48.9375 ms、运算复杂度为 35.8 WMOPS。

4.2.1 G.729 EV 编/解码器

默认情况下,编码器和解码器的采样率为 16KHz。

G.729 EV 总体的编码算法是三级结构:在窄带(50-4000Hz)使用嵌入式 CELP 编码

(embedded Code-Excited Linear Predictive coding),在宽带(4000-7000 Hz)使用

TD-BWE(Time-Domain Bandwidth Extension),在全带(50-7000 Hz)的增强是使用 TDAC

(Time-Domain Aliasing Cancellation)。

4.3 G.729.1 DTX/CNG 标准化进展

G.729.1 DTX/CNG 是 ITU-T SG16 WP3 Q10 进行的一个标准化项目,是一个用于

G.729.1 的舒适噪声及非连续传输技术,在 2008 年 4 月完成。G.729.1 DTX/CNG 参与的只

有华为和西门子。两方同意进行合作开发,直接进入优化/融合阶段,目前已经完成标准

化进程。 htt

p://w

ww.ptsn.

net.c

n

Page 26: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

23

2H1(z)

+ -

+

MDCT

M

U

X

2H2(z) (-1)n Hh2(z))(ns fold

HB)(nsqmfHB

)(nsWB

)(nsqmfLB

embeddedCELP encoder(8-12 kbit/s)

Hh1(z)

MDCT

WLB(z)A(z)^

)()( nsnsLB =

TDBWEencoder

(14 kbit/s)

TDACencoder

(16-32 kbit/s)

)(ˆ nsenh

)(ndLB

)(nd wLB

)(kD wLB

)(nsHB

)(kSHB

FEC encoder

图15 G.729EV编码器高层结构图

2 G1(z)++

+

D

E

M

U

X

2 G2(z)(-1)n)(ˆ)(ˆ nsns fold

HBechoHB = )(ˆ nsqmf

HB

)(ˆ nsWB

)(ˆ nsqmfLB

WLB(z)-1A(z)^

)(ˆ)(ˆnsorns

enh )(ˆ nsLB

)(ˆ nd echoLB

)(ˆ nd wLB)(ˆ kDw

LB

)(ˆ nsHB

)(ˆ kSHB

TDBWEdecoder

(14 kbit/s)

TDACdecoder

(14-32 kbit/s)

embeddedCELP decoder(8-12 kbit/s)

MDCT-1

adaptivepostfiltering

MDCT-1

pre/post-echoreduction

)(ˆ ndLB

pre/post-echoreduction

MDCT

)(ˆ nsbweHB

)(ˆ kS bweHB

HPF

)(ˆ ns postLB

)(ˆ nshpfLB

++

+

=)(ˆ nscelpLB

图16 G.729EV解码器高层结构图

4.4 G.729.1 SWB 标准化项目

G.729.1 SWB 是 G.729.1 的超宽带及立体声扩展,在 2007 年 7 月 Q10 的会议上讨论了

G.729.1 超宽带扩展的 ToR,并且与 Q9 进行了联合会议。会议结论是 Q9 和 Q10 分别进行

超宽带 ToR 讨论,然后在 Q23 对两个 ToR 进行融合。

http:/

/www.pt

sn.ne

t.cn

Page 27: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

24

5 G.711 扩展技术

G.711 是 CCITT 于 1988 年推出的 64-kbps 信道电话语音编码国际标准。G.711 中采用

了压缩扩展(使用 m-law 或 A-law 标准),它将每个数据采样压缩为 8-bit 字,生成 64 kbps的输出比特速率。作为一种音频压缩标准,它可以用于数字 PBX/ISDN 上的数字式电话,

也是现在使用 广泛的语音编码技术之一。 G.711 技术主要使用在窄带的语音传输中,无法适用于现在对高音频质量的要求,所

以 ITU-T 开始了一些对 G.711 扩展的标准项目。

5.1 G.711WB 标准化进展介绍

G.711WB 是 G.711 的宽带扩展,以 G.711 为基本层,增加两个增强层,该项目是 NTT在 2007 年 1 月报告人会议上提出,共有 5 家单位参与:ETRI,France Telecom,Huawei,NTT,VoiceAge,在 2008 年 1 月完成。

法电、NTT、Voiceage在第一阶段测试中通过了所有54个基本指标,直接进入下一轮。

华为有5项基本指标没过,ETRI有1项基本指标没过。经过华为公司与会专家和顾问与其他

各方的努力沟通之后,参与的五方同意合作,共同进入下一阶段。表11是G.711WB参与厂

商的方案各个技术点。

表11 G.711WB各家方案的各个技术点

单位 France

Telecom ETRI VoiceAge NTT Huawei

编解码器 A B C D E

核心层 G.711 +

noise feedback

G.711 G.711 + noise

feedback

G.711 + noise

feedback G.711

低带增强 TD SQ TD VQ TD

LP-weighted Algebraic VQ

TD weighted

VQ

TD VQ (context info.)

高带增

强. MDCT

split VQ

PQMF ADPCM +

VQ

TD LP-weighted Algebraic VQ

MDCT interleave

VQ

MDCT switching VQ

算法

后处理 低带有 none none none 高带丢包补偿

有 帧长/ms 5 5 5 5 5

算法时延/ms 13.9375 13.6875 14 11.875 11.4375

5.1.1 G.711WB 编解码器高层结构

http:/

/www.pt

sn.ne

t.cn

Page 28: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

25

图 17 Voiceage G.711WB 候选方案编码器高层结构

图 18 Voiceage G.711WB 候选方案解码器高层结构 http:/

/www.pt

sn.ne

t.cn

Page 29: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

26

Input signal(16-kHz

sampling)

AnalysisQMF

Coreencoder

Coredecoder

Lower-bandenhancement

encoder

MUX

Multiplexed code

Core bitstream

Lower-bandenh.

bitstream+-

Lower-bandsignal

Higher-bandsignal

Higher-bandenhancement

encoder Higher-bandenh.

bitstream

Pre-processing

Input signal(16-kHz

sampling)

AnalysisQMF

Coreencoder

Coredecoder

Lower-bandenhancement

encoder

MUX

Multiplexed code

Core bitstream

Lower-bandenh.

bitstream+-

Lower-bandsignal

Higher-bandsignal

Higher-bandenhancement

encoder Higher-bandenh.

bitstream

Pre-processing

Input signal(16-kHz

sampling)

AnalysisQMF

Coreencoder

Coredecoder

Lower-bandenhancement

encoder

MUX

Multiplexed code

Core bitstream

Lower-bandenh.

bitstream+-

Lower-bandsignal

Higher-bandsignal

Higher-bandenhancement

encoder Higher-bandenh.

bitstream

Pre-processing

图19 NTT G.711WB候选方案编码器高层结构

Coredecoder

Output signal(16-kHz

sampling)Multiplexed

code

Core bitstream

Lower-bandenh. bitstream

Higher-bandenh. bitstream

Lower-bandsignal

Higher-bandsignal

Lower-bandPLC

Higher-bandPLC

de-MUXLower-bandenhancement

decoder

Higher-bandenhancement

encoder

SynthesisQMF

Coredecoder

Output signal(16-kHz

sampling)Multiplexed

code

Core bitstream

Lower-bandenh. bitstream

Higher-bandenh. bitstream

Lower-bandsignal

Higher-bandsignal

Lower-bandPLC

Higher-bandPLC

de-MUXLower-bandenhancement

decoder

Higher-bandenhancement

encoder

SynthesisQMF

Coredecoder

Output signal(16-kHz

sampling)Multiplexed

code

Core bitstream

Lower-bandenh. bitstream

Higher-bandenh. bitstream

Lower-bandsignal

Higher-bandsignal

Lower-bandPLC

Higher-bandPLC

de-MUXLower-bandenhancement

decoder

Higher-bandenhancement

encoder

SynthesisQMF

图 20 NTT G.711WB 候选方案解码器高层结构

http:/

/www.pt

sn.ne

t.cn

Page 30: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

27

2L + -

+

2H

PCMencoder

TDACencoder

noiseshaper

x

(-1)n

QMF filterbank

PCMdecoder

M

U

X

inputat 16 kHz

input at 8 kHz

scalablebitstream

signalselector

mode

mode 图21 FT G.711WB候选方案编码器高层结构

2 L

2 H

+-

+

QMF filterbank

outputat 8 kHz

scalablebitstream

signalselector

bfi

mode

PCMdecoder

TDACdecoder

D

E

M

U

Xhigh-band

PLC

low-bandPLC

signalselector

adaptivepost-filter

x

(-1)n

outputat 16 kHz

mode

z-D

图22 FT G.711WB候选方案解码器高层结构

http:/

/www.pt

sn.ne

t.cn

Page 31: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

28

MU

X

MU

X_H

B

图 23 ETRI G.711WB 候选方案编码器高层结构

DEM

UX

G.711 A/u-law Expansion

+ LPF

� 2(-1)n HPF

+Reconstructed

WB signal

� 2

ADPCMDecoder8 kb/s

4 kb/s

4 kb/s

Gain-shape Inv. Quantization

DEM

UX

_HB

Gain-shape Inv. Quantization

Gain-shape Inv. Quantization

4-band PQMF

Synthesis16 kb/s

64 kb/s

16 kb/s

“0"

+

+

+

+

图 24 ETRI G.711WB 候选方案解码器高层结构

图 25 华为 G.711WB 候选方案编码器高层结构

http:/

/www.pt

sn.ne

t.cn

Page 32: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

29

图 26 华为 G.711WB 候选方案解码器高层结构

5.2 G.711 LLC

G.711 LLC 是对 G.711 的无损压缩编解码技术,是 Q10 会议上新提出的标准化工作。

在 2007 年 7 月会议上,Cisco 提出在 ITU-T 对 G.711 无损压缩进行标准化,该编解码器应

该具有低复杂度和近无时延的特性。会议上讨论了复杂度、比特变化范围、应用、抗丢包

等问题。大会希望能够在接下来两次报告人会议中有更多关于 G.711 无损压缩的提案。 目前,G.711 LLC 已完成 ToR 的指标制定。

6 G.722 扩展技术

G.722 是支持比特率为 64,56 和 48 kbps 多频率语音编码算法。在 G.722 中,语音信

号的取样率为每秒 16000 个样本。与 3.6kHz 的的频率语音编码相比较,G.722 可以处理频

率达 7kHz 音频信号宽带。G.722 编码器是基于子带自适应差分脉冲编码(SB-ADPCM)

原理的。信号被分为两个子带,并且采用 ADPCM 技术对两个子带的样本进行编码。 在 Q10 正在进行和将于进行的标准化项目中对 G.722 扩展带宽进行了研究。

6.1 G.719 全带扩展

G.719 全带扩展即 G.719FB,是 Q10 正在进行的一个标准化项目,在 2008 年 4 月完成。 参与 G.719FB 项目的有 Polycom 和爱立信两家,他们都在资格阶段的主观测试中通过

了所有基本性能指标,都进入下一阶段。下一阶段是竞争阶段还是融合阶段还需要双方协

商。

图 27 Ericsson G.719 FB 候选方案编码器高层结构

http:/

/www.pt

sn.ne

t.cn

Page 33: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

30

Coded

Coeffcients

图 28 Ericsson G.719 FB 候选方案编码器高层结构

Polycom 在会议提案中没有画出编解码器高层结构图。 目前,G.719 正在制定 ToR 和时间表,同时 Polycom 和爱立信的方案已经融合,共同

提出新的方案。

6.2 G.722 SWB

G.722SWB 是 G.722 的超宽带扩展,以 G.722 为基本层,增加至少两个增强层。在 2007年 7 月会议上,FT 提出对 G.722 进行超宽带扩展的标准化。会议上讨论了 ToR,并且决定

在接下来的两次报告人会议上继续讨论。

7 DRA 技术介绍

7.1 音频数据帧的组成

一个 DRA 编码的音频数据帧主要组成部分有:帧头(包括同步字和对音频的描述);

正常声道(所有正常声道的音频数据);低频效应声道(所有低频效应声道的音频数据);

错误检测以及辅助数据。 7.1.1 帧头

1bit

音频数

据帧长

10/13bit

短窗

MDCT块数

2bit

采样

频率

指数

4bit

正常

声道

3/6bit

低频

效应

声道

1/2bit

声道

设置

附加

信息

决定

1bit

和差

编码

决定

1/0bit

联合

强度

编码

决定

1/0bit

联合

强度

编码

的起

始临

界频

5/0bit

图 29 帧头的组成部分

同步字:DRA 音频数据帧的同步帧由 0x7FFF 开始; 帧头类型:=0,表示常规帧头;=1 表示扩展帧头。两种帧头的总长度相同,主要区

别有:

http:/

/www.pt

sn.ne

t.cn

Page 34: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

31

比特数 有区别的字段

常规帧头 扩展帧头

音频数据帧长 10 13

正常声道数 3 6

低频效应声道数 1 2

和差编码决定 1 0

联合强度编码决定 1 0

联合强度编码的起始临界频带 5 0

音频数据帧长:10 或 13bit,标识当前帧的音频数据从同步字(第一个字节)开始一

直到误码检测字结束的长度,以 32bit 为单位来表达;

短窗 MDCT 块数:2 bit,标识一帧音频数据所对应的短窗 MDCT 块的个数;

采样频率指数:4 bit,标识音频信号的采样频率,0~12 标识 8k~192k Hz,13~15

保留;

正常声道数:3/6 bit,标识正常声道的个数,常规帧头时,3bit 标识 多 8 个,扩展帧

头时,6bit 标识 多 64 个;

低频效应声道数:1/2bit,标识低频效应(LFE)声道的个数,常规帧头时,1bit 标识

0、1,扩展帧头时,2bit 标识 0~3;

声道设置附加信息决定:1bit,标识本帧音频数据末尾的辅助数据中是否含有关于声

道设置的附加信息;

和差编码决定:1/0 bit,标识本帧是否用到和差编码,该字段在常规帧头中有效,扩

展帧头无此字段;

联合强度编码决定:1/0 bit,标识本帧是否用到联合强度编码,该字段在常规帧头中

有效,扩展帧头无此字段;

联合强度编码的起始临界频带:5/0 bit,如果用联合强度编码,则标识联合强度编码

的起始临界频带,该字段在常规帧头中有效,扩展帧头无此字段。

http:/

/www.pt

sn.ne

t.cn

Page 35: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

32

7.1.2 正常声道

窗口函数指数 标识MDCT的窗口函数

瞬态段的个数 只用于瞬态帧,标识瞬态段的个数 窗口序列

瞬态段的长度 只用于瞬态帧,标识每个瞬态段的长度

码书个数 每个瞬态段用到的Huffman码书的个数

应用范围 每个Huffman码书的应用范围 Huffman码书指数

和应用范围 码书指数 每个Huffman码书的指数

子带样本的量化指数 所有子带样本的量化指数

量化步长指数 每个量化单元的量化步长的指数

和差编码决定 可选的指示解码器是否要对一个量化单元里的样本进行和差解码

联合强度编码比例因子 可选的用于对一个量化单元里的样本进行联合强度解码

7.1.3 低频效应声道

码书个数 标识Huffman码书的个数

应用范围 每个Huffman码书的应用范围 Huffman码书指数和应

用范围 码书指数 每个Huffman码书的指数

子带样本的量化指数 所有子带样本的量化指数

量化步长指数 每个量化单元的量化步长的指数

7.1.4 误码检测

编码器打包完所有音频数据后,把 后一个 32bit 字段的未用比特全部设为 1;在解

码时,如果这些未用的比特不是全为 1,则意味着此音频数据有误码。

7.1.5 辅助数据

辅助数据在误码检测之后,所以辅助数据的存在与否不影响正常解码,解码器完全可

以不处理辅助数据。这意味着对辅助数据的定义完全由用户约定。

7.2 编/解码器

DRA 音频编解码算法基于人耳的听觉特性对声音信号进行量化和比特分配,属于感

知音频编码器,采用了变换编码的路线。

http:/

/www.pt

sn.ne

t.cn

Page 36: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

33

7.2.1 编码器组成

图 30 编码器组成部分

瞬态检测器:检测输入的 PCM 样本是否含有瞬态响应,瞬态分析的主要作用是检测

当前输入帧中是否由瞬态并将该信息传递给可变分辨率分析滤波器组,以确定该使用

长或短的 MDCT 以及需要使用的窗口函数等; 多分辨率分析滤波器组:把每个声道的音频信号的 PCM 样本分解成子带信号。该滤

波器组的时频分辨率由瞬态检测的结果而定; 交叉重组器:当帧中存在瞬态时,用来交叉重组子带样本以便于降低传输它们所需的

总比特数; 人耳听觉模型:计算人耳的噪声掩蔽阀值; 和差编码器(可选):把左右声道对的子带样本转换成和差声道对; 联合强度编码器(可选):利用人耳在高频的声像定位特性而对联合声道的高频分量

进行强度编码;

暂态分析

多分辨率滤波器组

交叉重组

和差编码

联合强度编码

输入PCM样本

线性标量量化

量化指数编码

人耳听 觉模型

全局比特分配

码书选择

码流

注:实线表示音频数据,虚线表示控制/辅助信息

http:/

/www.pt

sn.ne

t.cn

Page 37: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

34

全局比特分配器:把比特资源分配给各个量化单元,以使他们的量化噪声功率低于人

耳的掩蔽阀值; 线性标量量化器:利用全局比特分配器提供的量化步长来量化各个量化单元内的子带

样本; 码书选择器:基于量化指数的局部统计特征对量化指数分组,并把 佳的码书从码书

库中选择出来分配给各组量化指数; 量化指数编码器:用码书选择器选定的码书及其应用范围来对所有的量化指数进行

Huffman 编码; 多路复用器:把所有量化指数的 Huffman 码和辅助信息打包成一个完整的比特流。

7.2.2 解码器的组成

图 31 解码器组成部分

多路解复用器:从比特流解包出各个码字。由于 Huffman 码属于前缀码,其解码和多

路解复用是在同一个步骤中完成的; 码书选择器:从比特流中解码出用于解码量化指数用的各个 Huffman 码书及其应用范

围; 量化指数解码器:用于从比特流中解码出量化指数; 量化单元个数重建器:由码书应用范围重建各个瞬态段的量化单元的个数;

多分辨率合成滤波器组

逆交叉重组

和差解码

联合强度解码

码书选择 量化指数解码

量化单元个数 逆量化

短/暂窗口函数序列

码流

PCM样本输出 注:实线表示音频数据,虚线表示控制/辅助信息

http:/

/www.pt

sn.ne

t.cn

Page 38: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

35

逆量化器:从码流中解码出所有量化单元的量化步长,并用它由量化指数重建子带样

本; 联合强度解码器(可选):利用联合强度比例因子由源声道的子带样本重建联合声道

的子带样本; 和差解码器(可选):由和差声道的子带样本重建左右声道的子带样本; 逆交叉重组器:当帧中存在瞬态时,逆转编码器对量化指数的交叉重组; 短/暂窗口函数序列重建器:对瞬态帧,根据瞬态的位置及 MDCT 的完美重建(Perfect Reconstruction)条件来重建该帧须用的短/暂窗口函数序列; 可变分辨率合成滤波器组:由子带样本重建 PCM 音频样本。

7.3 可变分辨率的滤波器组

音频信号通常由准稳态的声音片断组成,这些声音片断包含一系列声音频率分量,并

被突变的瞬态信号间插分隔。因此,音频编解码算法需要使用一个可根据音频信号的分段

平稳特性来调整时频分辨率的滤波器组,该滤波器组对于准稳态的声音片断具有高的频域

分辨率,而对瞬态信号具有高的时域分辨率。传统的音频编解码算法在处理这个问题时往

往采取一种折衷的方法,但是折衷的效果对于稳态信号和瞬态信号都不是 优的。 DRA 算法在处理这个问题时采取了改进的方法,该方法对音频帧中瞬态信号的发生

及其准确位置进行分析,针对音频信号的动态特征对稳态信号和瞬态信号分别进行处理,

并通过引入新的“短/暂窗口函数”进一步提高对瞬态信号的时域分辨率。该方法对于稳

态信号采用了高的频域分辨率滤波器组,使变换后的子带样本能量更加集中,有利于量化

和熵编码;而对于瞬态信号则提供了精细的时域分辨率,从而保留了足够的对听觉有效的

信息。 7.3.1 窗口函数集

DRA 技术使用的窗口函数都是基于以下函数:

⎥⎦⎤

⎢⎣⎡ +

=M

nnw2

)2/1(sin)( π。

根据输入音频信号的动态特征,M=1024 的长 MDCT 用于处理稳态帧,M=128 的

短 MDCT 用于处理瞬态帧。为了这两个长度的 MDCT 之间能相互轮换,完美重建(Perfect Reconstruction)要求采用如下的 5 个窗口函数:

WIN_LONG_LONG2LONG:

20480,2048

)2/1(sin)( <≤⎥⎦⎤

⎢⎣⎡ +

= nnnw π

WIN_LONG_LONG2SHORT: http:/

/www.pt

sn.ne

t.cn

Page 39: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

36

⎪⎪⎪

⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +

=

.20481600,0

;16001472,256

)2/1)1344((sin

;14721024,1

;10240,2048

)2/1(sin

)(

n

nnn

nn

nwπ

π

WIN_LONG_SHORT2LONG:

⎪⎪⎪

⎪⎪⎪

<≤⎥⎦⎤

⎢⎣⎡ +

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.20481024,2048

)2/1(sin

;1024576,1

;576448,256

)2/1)448((sin

;4480,0

)(

nnn

nnn

nw

π

π

WIN_LONG_SHORT2SHORT:

⎪⎪⎪⎪

⎪⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.20481600,0

;16001472,256

)2/1)1344((sin

;1472576,1

;576448,256

)2/1)448((sin

;4480,0

)(

n

nnn

nnn

nwπ

π

WIN_SHORT_SHORT2SHORT:

2560,256

)2/1(sin)( <≤⎥⎦⎤

⎢⎣⎡ +

= nnnw π

在瞬态发生的准确地点,则用如下的暂窗口函数以进一步提高 MDCT 的时间分辨率:

WIN_SHORT_BRIEF2BRIEF:

⎪⎪⎪⎪

⎪⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.256208,0

;208176,64

)2/1)144((sin

;17680,1

;8048,64

)2/1)48((sin

;480,0

)(

n

nnn

nnn

nwπ

π

http:/

/www.pt

sn.ne

t.cn

Page 40: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

37

为了这个窗口函数能与长/短窗口函数之间能相互轮换,完美重建(Perfect

Reconstruction)要求引入如下的窗口函数:

WIN_LONG_LONG2BRIEF:

⎪⎪⎪

⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +

=

.20481552,0

;15521520,64

)2/1)1488((sin

;15201024,1

;10240,2048

)2/1(sin

)(1

n

nnn

nn

nwπ

π

WIN_LONG_BRIEF2LONG:

⎪⎪⎪

⎪⎪⎪

<≤⎥⎦⎤

⎢⎣⎡ +

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.20481024,2048

)2/1(sin

;1024528,1

;528496,64

)2/1)496((sin

;4960,0

)(1

nnn

nnn

nw

π

π

WIN_LONG_BRIEF2BRIEF:

⎪⎪⎪⎪

⎪⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.20481552,0

;15521520,64

)2/1)1488((sin

;1520528,1

;528496,64

)2/1)496((sin

;4960,0

)(

n

nnn

nnn

nwπ

π

WIN_LONG_SHORT2BRIEF:

⎪⎪⎪⎪

⎪⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.20481552,0

;15521520,64

)2/1)1488((sin

;1520576,1

;576448,256

)2/1)448((sin

;4480,0

)(

n

nnn

nnn

nwπ

π

WIN_LONG_BRIEF2SHORT:

http:/

/www.pt

sn.ne

t.cn

Page 41: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

38

⎪⎪⎪⎪

⎪⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.20481600,0

;16001472,256

)2/1)1344((sin

;1472528,1

;528496,64

)2/1)496((sin

;4960,0

)(

n

nnn

nnn

nwπ

π

WIN_SHORT_SHORT2BRIEF:

⎪⎪⎪⎪

⎪⎪⎪⎪

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

<≤⎥⎦⎤

⎢⎣⎡ +

=

.256208,0

;208176,64

)2/1)144((sin

;176128,1

;1280,256

)2/1(sin

)(

n

nnn

nn

nwπ

π

WIN_SHORT_BRIEF2SHORT:

⎪⎪⎪

⎪⎪⎪

<≤⎥⎦⎤

⎢⎣⎡ +

<≤

<≤⎥⎦⎤

⎢⎣⎡ +−

<≤

=

.256128,256

)2/1(sin

;12880,1

;8048,64

)2/1)48((sin

;480,0

)(

nnn

nnn

nw

π

π

7.3.2 短/暂窗口函数序列 在瞬态发生的位置及其前后可选择的窗口函数有:

位置 可用的窗口函数

瞬态前

WIN_SHORT_BRIEF2BRIEF WIN_SHORT_SHORT2BRIEF WIN_LONG_LONG2BRIEF WIN_LONG_SHORT2BRIEF WIN_LONG_BRIEF2BRIEF

瞬态 WIN_SHORT_BRIEF2BRIEF

瞬态后

WIN_SHORT_BRIEF2BRIEF WIN_SHORT_BRIEF2SHORT WIN_LONG_BRIEF2LONG WIN_LONG_BRIEF2SHORT WIN_LONG_BRIEF2BRIEF

http:/

/www.pt

sn.ne

t.cn

Page 42: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

39

7.4 DRA 技术 Huffman 码书的选择

在常见的音频编码算法中,熵码书的应用范围和量化单元相同,所以熵码书由量化单

元内的量化指数来确定。这种传统的以量化单元的为码书选择基本单元的的码书选择方案

是基于这样一个假设,即每个量化单元内的量化指数具有类似的统计特性,因而可以采用

相同的码书。然而这个假设并不一定成立。所以 DRA 采用了创新的码书选择方案。 DRA 算法进行量化指数的熵编码在码书选择阶段完全忽略了量化单元的存在,而是

根据每个量化指数的特性分配 优的码书指数,然后合并码书指数形成较大的段,共享一

个码书指数,以尽量少的比特数传递码书指数选择信息。 第一步,把 佳码书分配给每个量化指数,在本质熵把量化指数转换成了码书指数;

第二步,把这些码书指数按其局部统计特性分段,段边界定义了码书应用范围。显然,这

样的码书应用范围与由量化单元确定的范围是不同的,它们完全是由量化指数的局部统计

特性决定的,两者的匹配可以减少传输量化指数所需的比特数。 由于各个码书的应用范围独立于量化单元,所以 DRA 编码技术除了像其它技术一样,

把码书指数作为辅助信息传输给解码器外,还需要把各个码书的应用范围也作为辅助信息

传输给解码器。这个额外的成本可能会导致传输量化指数和辅助信息的比特数总和更加

大。这需要在为码书指数分段时,提高合并效率,减少段的数量,从而减少需要传送的码

书指数及其应用范围。

7.5 DRA 自有专利情况

DRA 技术区别于其他音频编码技术的主要的两个特点是 Huffman 码书选择方式和自

己独特的可变分辨率滤波,这两项主要的专利技术 DRA 都是首先在美国提出专利申请。 2004 年广州广晟数码技术有限公司为 DRA 技术在美国申请了第一项专利,专利名称

多声道数字音频编码设备及其方法(Apparatus and methods for multichannel digital audio coding),专利申请号 US11029722),该专利共有 87 项权利要求。2005 年在美国通过专利

检索归档。目前该专利已经公示完毕,处于 后实质审查阶段。此专利文件中主要描述

Huffman 码书选择以及相关的专利技术和专利要求。对应的中国专利申请号为

200510095898.6,申请日期为 2005 年 9 月 7 日,权利要求为 87 项。 2006 年广州广晟数码技术有限公司又对 DRA 技术的其它技术点在美国提出了专利申

请(专利名称:可变分辨率滤波 (Variable-Resolution Filtering),专利申请号:US60822760,2006 年在美国通过专利检索归档。该申请已被受理。同时,广州广晟数码技术有限公司

还申请了 13 项国内专利。

7.6 技术评测

DRA 技术的研究开发过程中,主要是由国家广播电视产品质量监督检测中心和国家

广播电影电视总局广播电视规划院对 DRA 算法先后组织进行了五次主观听音测试。 第一次是在 2004 年 8 月 10 日,DRA 技术顺利通过国家广播电视产品质量监督检测

中心的技术测试。当时的测试结论为:该技术“在立体声和 5.1 声道工作方式下,音质损伤

较小,听音人员感觉其音质与未经编解码的原始节目信号无明显差别。”

http:/

/www.pt

sn.ne

t.cn

Page 43: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

40

时隔 10 多天之后,2004 年 8 月 23 日,广东省发改委、信息产业厅和广电局联合在

广州召开了“广晟数码数字音频编解码算法专家鉴定会”。专家委员会对 DRA 技术鉴定结

论为“该项目的主要技术性能指标相当或优于国际主流数字音频编解码算法的技术水平,

位居国际先进行列。” 2005 年 4 月,国家广电总局广播电视规划院对 DRA 技术的效果进行了主观评测

(2005.4-2005.7,2 声道立体声质量压缩效果测试),测试结论为:“对于本次测试的 8 个

立体声片断,被测编码软件和解码硬件在 128kbps 的立体声音质总体优于 4.7 分,并且达

到了 EBU 定义的‘不能识别损伤的’音频质量。对于本次测试的 8 个环绕声片段,被测编码

软件和解码硬件在 384 kbps 的环绕声音质总体优于 4.5 分”。 国家广播电影电视总局广播电视规划院进行了主观评价测试(2006.5-2006.8,5.1 声道

环绕声质量压缩效果测试),测试结论:“384kbps 总体音质为 4.90 分,达到了 EBU 定义

的“不能识别损伤的”音频质量”。

8 AVS-P3 音频标准

8.1 简介

AVS音频标准提供了一个高效的音频编码系统,采用了 新的音频编码工具,并致力

于宽带音频的编码。AVS音频标准的应用包括高分辨率高质量的数字音视频广播、高密度

数字存储媒体、多媒体通讯、互联网宽带流媒体等等。2002年8月AVS发布了《宽带音频

编解码方案征集书》,正式开始AVS音频的制订工作。2005年1月完成了AVS1-P3工作Beta版WD;2005年3月AVS第12次会议完成AVS1-P3 CD;2005年12月完成AVS1-P3 FCD;2006年1月,完成了参考软件,开发了优化软件,进行了一致性测试,并送交广电部进行外部

性能测试;2007年4月评估AVS1-P3音频标准中删除线性预测矢量量化技术后对性能造成

的影响, 终决定删除此项技术后标准报批。 AVS 音频标准的应用包括高分辨率高质量的数字音视频广播、高密度数字存储媒体、

多媒体通讯、互联网宽带流媒体等等。AVS 音频支持采样率 8kHz~96kHz 的单声道、双

声道和多声道 PCM 信号,输出比特流为每声道 16kbps~96kbps,同时支持比特流精细可

伸缩编码,可伸缩编解码步长在编码速率 16kbps~79kbps/ch 以下为 1kbps,编码速率

80kbps~96kbps/ch 时略大于 1kbps。AVS 音频采用了一系列先进、自主知识产权的编解码

技术,提高了音频编码的质量和效率,同时降低了编解码结构的复杂度。

8.2 编码原理

图 32 为 AVS 音频编码器框图。输入时间信号首先经过预处理模块进行信号类型分析,

判断出该帧信号类型是稳态信号还是瞬态信号;然后经过时频变换模块对时间信号进行修

正的离散余弦变换(MDCT)分析,得到频谱系数。频谱系数传送至频域线性预测及矢量

量化模块中进行线性预测滤波得到残差谱系数,其中预测系数转换成线谱频率系数并进行

矢量量化;如果该帧信号为瞬态信号,则残差谱系数输出到多分辨率分析模块中进行前回

声(pre-echo)控制,获得的频域系数的多分辨率表示并输出到量化模块中,如果该帧信

http:/

/www.pt

sn.ne

t.cn

Page 44: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

41

号为稳态信号,则对残差谱系数不进行处理,直接输出到量化模块中;经过量化模块后得

到量化频谱线。为了提高编码效率,量化频谱线经过后量化域方极坐标立体声模块进行量

化域方极坐标变换以去除声道对间的统计冗余。然后量化频谱线送入上下文位平面编码

(CBC)模块,进行比特层编码。CBC 可实现高编码效率和比特流可伸缩功能。 后比

特流格式器将各模块输出的数据进行复用,形成 AVS Audio 编码音频流。

预处理

时频变换(MDCT)

频域线性预测及矢量量化

多分辨率分析

量化

后量化方极坐标立体声编码

上下文位平面编码

比特流格式器

图例 数据 控制

输入时间信号

AVS Audio编码音频流

图32 AVS音频编码器框图

8.3 关键技术

AVS 音频涉及的关键技术如下: 8.3.1 瞬时特性判决方法

瞬时特性判决方法采用两级判决法,首先把输入的一帧音频信号划分为若干子块,然

后在时域内进行第一级判决,简单分析子块能量的变化情况,满足特定条件后才进行第二

步的不可预测度判决,该方法具有基于能量判据计算简单和基于不可预测度判据准确的优

点;同时该方法克服了基于能量判据不准确和基于不可预测性判据计算复杂的缺点,从而

在迅速准确定位瞬变信号的同时减少了误判。判决流程图如图 33 所示。 首先将一帧样本信号分成子块,然后计算各子块的能量,根据子块的能量计算出子块

能量的变化量并求出变化量的 大值。如果前一帧的信号类型为瞬态信号,则将该变化量

的 大值和 E_SWITCH 的 2/3 倍进行比较(其中 E_SWITCH 为根据经验设定的阈值),如

果 大变化量小于 E_SWITCH 的 2/3 倍则判断该帧的信号类型为稳态信号,否则判断该帧

http:/

/www.pt

sn.ne

t.cn

Page 45: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

42

的信号类型为瞬态信号;如果前一帧的信号类型为稳态信号,则将该 大变化量和

E_SWITCH 进行比较,如果变化量的 大值小于 E_SWITCH 则判断该帧信号类型为稳态

信号,否则进入第二级不可预测度判决进行进一步分析。在第二级不可预测度判决中,首

先对分成子块的信号进行 128 点的 FFT 变换,利用变换后的谱系数对各子块进行不可预测

度分析得到各子块的不可预测度,并求出不可预测度的 大值,如果该 大值小于

P_SWITCH(P_SWITCH 为根据经验设定的阈值),则判断该帧信号类型为稳态信号,否

则判断该帧信号类型为瞬态信号。

子块能量变换量求解

输入一帧样本

前一帧为稳态信号

大变化量>=E_SWITCH

大变化量>=2*E_SWITCH/3

128个点的FFT变换

求各子块的不可预测度

不可预测度 大值>=P_SWITCH

N

Y Y

N

N

N

判为瞬态信号 判为稳态信号

判为瞬态信号 判为稳态信号

输出判决结果

Y

Y

第一级能量判决

第二级不可预测度判决

图 33 信号类型判决方法

8.3.2 频域线性预测及矢量量化(FLPVQ) 此项技术 终从AVS1.0-P3标准中删除是由于专利质押原因,而非技术原因,在一些

测试序列下,此技术对编码效果还是有贡献的。 频域线性预测矢量量化技术用于解决音频信号编码中前回声(pre-echo)问题,可有

效降低码率并能够起到控制时域噪声的作用。 频域线性预测矢量量化具体步骤为对谱系数进行标准的线性预测分析,得到预测增益

和预测系数;判断预测增益是否超过设定的阈值,如果超过,则通过线性预测滤波器对谱

系数进行频域线性预测误差滤波,得到谱系数残差,如图 34 所示;将预测系数转化成线

http:/

/www.pt

sn.ne

t.cn

Page 46: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

43

谱频率系数,并对线谱频率系数进行矢量量化处理,其中矢量量化采用分级和分裂的形式,

第一级量化线谱频率参数,线谱频率参数矢量分裂为两个子矢量,第二级量化第一级的误

差矢量,误差矢量分裂为两个子矢量,线谱频率参数采用 佳的失真度量准则进行确定。

线性预测滤波器谱系数 谱系数残差

图 34 线性预测模型

由线性预测分析编码原理可知,如果预测增益大于1,则谱系数残差的动态范围小于

原始谱系数的动态范围,因此在量化时可以分配较少的比特数,或者对于相同比特数的条

件,可以获得编码增益。此外,频域线性预测矢量量化还起到控制时域噪声的作用,如图

35所示。根据时域掩蔽效应,原始信号能量大的部分可以掩蔽较大的噪声,所以提高了编

码主观质量。与MPEG AAC的TNS技术相比,AVS音频采用的FLPVQ技术简化了预测复杂

度,并通过矢量量化提高了编码效率。

0 200 400 600 800 1000 1200 1400 1600 1800 2000-1

-0.5

0

0.5

1x 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000-200

-100

0

100

200

0 200 400 600 800 1000 1200 1400 1600 1800 2000-200

-100

0

100

200

图35 原始信号和用FLPVQ后的编码噪声和不用FLPVQ的编码噪声(从上到下)

8.3.3 多分辨率分析 多分辨率分析对输入的频域数据进行时-频域重新组织,以频率精度的降低为代价提

高频域数据的时间分辨率,从而自动地适应快变类型信号的时频特性,达到抑制前回声

(pre-echo)的效果。 多分辨率分析的具体步骤为对输入的频谱系数进行 16 点的短 MDCT 变换。使得时频

域数据的频率精度有所下降,而时间精度相应地得到提高。在不同的频域范围内使用不同

长度的短 MDCT 变换,可以获得不同的时-频平面划分即不同的时、频精度。经过多分

辨率分析后的时频平面如图 36 所示。经过前回声控制的效果如图 37 所示,其中右图为左

图前 750 个样本点放大 10 倍的效果图。从图中可以看出通过利用前回声控制,前回声现

http:/

/www.pt

sn.ne

t.cn

Page 47: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

44

象大大减弱,从而提高了编码主观质量。同时,采用多分辨率分析技术可以有效回避采用

块长度和窗型切换所引起的专利问题。

图 36 频域多分辨率后时频平面示意图

图 37 原始信号和不加前回声控制的解码信号和加前回声控制的解码信号(从上至下)

8.3.4 量化域方极坐标立体声变换(PQ-SPSC) 量化域方极坐标立体声变换(PQ-SPSC)的原理是将耦合映射放到量化后的信号域上

来实现,在量化信号域上通过合适的无损耦合方式来提取声道间的相关性。它可以利用各

种正交变换来达到压缩声道间相关性冗余的目的,从而使编码效率得到提高。 是否使用量化域方极坐标立体声编码是以比例因子带为 小单位的,对构成声道对的

两个声道的同一比例因子带内所有的 MDCT 量化频谱线,或者全部进行量化域方极坐标

立体声变换,或者全部不进行量化域方极坐标立体声变换。 当用于PQ-SPSC变换后比例因子带的编码比特数少于原始比例因子带的编码比特数

时,我们就可以对该比例因子带内的所有的MDCT量化频谱线进行量化域方极坐标立体声

变换。 当对某一比例因子带应用量化域方极坐标变换时,编码过程如下:

调调制制

kk11

频频

http:/

/www.pt

sn.ne

t.cn

Page 48: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

45

在编码端是PQ-SPSC的正变换,输入是左/右声道对应的MDCT量化频谱线(left/right,简记为l/r),输出是变换后的幅/角(magnitude/angle,简记为m/a)。可以用下式表示:

, abs( ) abs( )abs( )

,abs( )

ll r

l rma r

elsel r

⎧⎛ ⎞>⎪⎜ ⎟−⎛ ⎞ ⎪⎝ ⎠= ⎨⎜ ⎟

⎛ ⎞⎝ ⎠ ⎪⎜ ⎟⎪ − −⎝ ⎠⎩

同时该比例因子带的第二(右)声道比例因子改为在声道间进行差分编码。量化域方

极坐标变换可以用图38表示: 当不对某一比例因子带应用方极坐标时,在编码端这个比例因子带内所有的MDCT频

谱不存在左右声道对之间的变换(或者说变换矩阵是2×2的单位矩阵)。

l

r

m<0a>0

m>0

a<0

+

+

图 38 量化域方极坐标变换原理图

在 AVS Audio 优化版本上同时实现了方极坐标立体声编码方案(SPSC)和量化域方

极坐标立体声变换(PQ-SPSC)编码方案。其中 SPSC 技术 初来源于 Ogg Vorbis 中的立

体声编码方案,所用立体声声学模型参考 AAC 中的 M/S 声学模型原理,专门针对 SPSC进行了优化。 8.3.5 上下文位平面编码(CBC)

CBC用于音频量化熵编码,可实现高效编码和比特流可伸缩功能。编解码速率从

16kbps~96kbps连续可调,可伸缩编解码步长在编码速率16kbps~79kbps/ch以下为1kbps,编码速率80kbps~96kbps/ch时略大于1kbp,实现精细颗粒可伸缩特征。

音频数据经过时频变换、频域处理和量化后,将量化频谱线送入CBC编码器,进行熵

编码。CBC使用比特层编码。根据所编码频带的不同,可以将CBC编码器分成若干子编码

器。各子编码器编码相应的边带信息和频谱信息。因量化比特深度和量化步长相对频谱样

点信息更重要,在各编码层中应先编码边带信息,然后再编码频谱样点,如图39所示。

http:/

/www.pt

sn.ne

t.cn

Page 49: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

46

量化频谱采用二进制表示并映射到各比特切分层。在映射过程中,从 高比特位到

低比特位逐比特层映射。各比特层形成的矢量从 高比特位到 低比特位,从低频带到高

频带逐级编码。 为了提高编码效率,各子编码器均利用了比特层间的上下文信息(context-dependent)

和哈夫曼编码。

输入音频数据

时/频

量化 编码 #1

# 1 比特流

# 2比特流

# n-1比特流

# n比特流

编码#2

编码#n

编码#n-1

编码比特+

-

+

-

+

-

图 39 CBC 编码器原理框图

在 Scalable 模式下,CBC 的比特流由基本编码层和多个增强层组成,以实现可伸缩编

码。量化频谱采用二进制表示并映射到比特切分平面。在映射过程中,从 高比特位(Most significant Bit,MSB)到 低比特位(Least Significant Bit,LSB)逐比特面映射。各比特

面形成的矢量从 MSB 到 LSB,从低频带到高频带逐级编码传送。每个矢量在特定的编码

模式下哈夫曼编码。CBC 的分层结构如图 40 所示。

加 强 层 N ( 高 层 )

层 0 (基 本 层 )

加 强 层 1

数 据 头

层 N 的

编 码 音 频 数 据

层 N 的

边 信 息

层 0 的

边 信 息

层 0 的

编 码 音 频 数 据

层 1 的

边 信 息

层 1 的

编 码 音 频 数 据

° ° °

图 40 CBC 在 scalable 模式下的比特流结构

CBC 在 scalable 模式下工作,体现了熵编码的高编码效率的特点,又具有 Scalable 特

性,极大方便的系统的灵活性。所以 CBC 是目前音频熵编码领域的领先技术,也是极具

竞争力的熵编码技术。

http:/

/www.pt

sn.ne

t.cn

Page 50: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

47

8.4 主要模块性能比较

AVS1-P3 和目前国际音频标准的主要模块的性能比较。

0

200

400

600

800

1000

1200

1400

1600

es01

es02

es03

sc01

sc02

sc03

si01

si02

si03

sm01

sm02

sm03

Avg.

Bits/Frame

FAAC

CBC

图 41 AVS1-P3 CBC 技术与 Free AAC 熵编码技术性能比较

在同样的输入频谱数据条件下较FAAC提高了6%的编码效率。 图 42 给出了优化版本中使用 SPSC,PQ-SPSC 和不使用立体声编码的 ODG 得分。部

分序列使用 SPSC 后的 ODG 得分反而比独立声道(dual-channel)编码稍微低些,是因为

SPSC 存在量化噪声交叉的问题,而使用 PQ-SPSC 即使没有增益,但基本上也不低于独立

声道编码的结果。AVS1-P3 量化后方极坐标映射立体声较不使用立体声的编码效率增益,

提高了 0.3 分。

方极坐标,双声道和量化后方极坐标映射立体声的客观损害等级

-3.5

-3

-2.5

-2

-1.5

-1

-0.5

0

es01 es02 es03 sc01 sc02 sc03 si01 si02 si03 sm01 sm02 sm03 平均

序列

客观

损害

等级

方极坐标 双声道 量化后方极坐标映射立体声

图 42 AVS1-P3 PQ_SPSC 立体声技术性能分析

averag

http:/

/www.pt

sn.ne

t.cn

Page 51: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

48

9 对国内音频编码研究的建议

通过本研究报告中对国内外音频编码标准采用的技术、应用范围以及 新进展,本研

究报告对国内音频编码研究提出如下建议:

1) 建议具体的编码技术要有明确的针对性,可以对不同的音频应用开发不完全相同的编

码技术。

2) 建议现阶段以通信应用为主要场景进行开发。

3) 本着自主创新的原则,充分发挥拟研究的音频编码标准在某些特定应用领域中的优

势,这些优势包括:涵盖语音和音频、低延时、嵌入式可分级等,清晰地界定拟研究的音

频编码标准和已有的国内外音频标准的不同应用场景。

4) 建议可以根据多种技术路线进行研究开发,不一定要求必须兼容当前的标准。

5) 建议在专利方面采取开放的态度,通过自主创新提高技术的性能。

6) 介于音频编码技术由窄带到宽带,到超宽带,到全带宽的发展,而通信对音频的应用

也越来越多——由语音到立体声、多声道,我们音频编码的研究范围要更加广阔。

7) 对于研究过程中取得的成果和进步,可以通过制定标准的方式固化。制定标准的范围

既包括编解码技术,也应该包括对编解码技术的评测方法。

8) 从研究的目标来讲,国内音频编码技术研究的目标应该是 终瞄准国际标准,建议以

要成为国际标准为研究方向,分几步实现这个目标。首先进行基础研究开发,形成我国通

信行业标准,同时制定相关的主观测试标准;然后将通信行业标准在我国合适的领域应用,

测试,在条件成熟时,开始向国际相关标准化组织提交文稿,推进我国标准向国际标准方

向。

http:/

/www.pt

sn.ne

t.cn

Page 52: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

49

附 录 A 主要缩略语

A.1 缩略语

MPEG 动态图像专家组 Moving Picture Expert Group

ISO 国际标准化组织 International Standard Organization

IEC 国际电工委员会 International Electronic Committee

ITU-T 国际电信联盟电信标准

化组

ITU Telecommunication Standardization

Sector

MUSICAM 掩蔽型自适应子带编码

和复用

Masking pattern adapted Universal Subband

Integrated Coding And Multiplexing

ASPEC 自适应谱感知熵编码 Adaptive Spectral Perceptual Entropy Coding

AAC 高级音频编码 Advanced Audio Coding

SBR 频带复制 Spectral Band Replication

PQF 多相正交滤波器 Polyphase Quadrature Filter

VAD 语音端点检测 Voice Activity Detection

PS 参数立体声 Parametric Stereo

CELP 码激励线性预测编码 Code Excited Linear Prediction

GA 通用音频编码 General Audio Coding

AAC-LD 高级音频编码-低时延 AAC-Low Delay

AAC-ELD 高级音频编码-增强低时

延 AAC-Enhanced Low Delay

SAOC 空间音频对象编码 Spatial Audio Object Coding

IPR 知识产权 Intellectual Property Right

ER 抗误码 Error Resilient

LTP 长时期预测规格 Long Term Prediction

TTSI 文本语音接口 Text-To-Speech Interface

NB 窄带 Narrow Band

WB 宽带 Wide Band

SWB 超宽带 Super Wide Band

FB 全带 Full Band

http:/

/www.pt

sn.ne

t.cn

Page 53: 前 言  · MPEG-21 定义为多媒体框架标准(multimedia framework standard),致力于定义用 于传输和消费链上的所有用户的多媒体传输和消费的开放框架,定义支持用户以一种有

50

ToR 参考条款 Term of Reference

MDCT 改进离散余弦变换 Modified Discrete Cosine Transform ACELP 代数码激励线性预测 Algebraic Code Excited Linear Prediction

TD-BWE 时域带宽扩展 Time-Domain Bandwidth Extension

TDAC 时域混叠消除 Time-Domain Aliasing Cancellation

ADPCM 自适应差分脉码调制 Adaptive Differential Pulse Code Modulation

http:/

/www.pt

sn.ne

t.cn


Recommended