Untitled Document

　　音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中，数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此，人们在实施数据压缩时，要在音频质量、数据量、计算复杂度三方面进行综合考虑。
　　为了实现音频数据压缩，多方面的专家致力于算法的研究，众多的企业致力于芯片和产品的研制，国际标准化组织也先后推出一系列建议。高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。

　　音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中，数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此，人们在实施数据压缩时，要在音频质量、数据量、计算复杂度三方面进行综合考虑。从信息保持的角度讲，只有当信源本身有冗余时，才能对其进行压缩。
　　根据统计分析结果，语音信号中存在多种冗余，其最主要部分可以分别从时域和频域来考虑。另外，由于语音主要是给人听的，所以也要考虑人的听觉感知机理。因此，可以从以下三个方面来考虑音频信号的冗余度：
　　·时域信息的冗余度
　　·频域信息的冗余度
　　·人的听觉感知机理

　　时域信息冗余度体现在以下几个方面：
　　·幅度的非均匀分布
　　·样本间的相关
　　·周期之间的相关
　　·基音之间的相关
　　·静音系数
　　·长时自相关函数
　　频域信息冗余度体现在以下几个方面：
　　·非均匀的长时功率谱密度
　　·语音特有的短时功率谱密度
　　从人的听觉感知机理方面对音频信息进行压缩，主要有：
　　·人的听觉具有掩蔽效应
　　·人耳对不同频段的声音的敏感程度不同
　　·人耳对语音信号的相位变化不敏感

　　下面将介绍音频编码的分类：
　　（1）基于音频数据的统计特性进行编码，其典型技术是波形编码。
　　（2）基于音频的声学参数，进行参数编码，可进一步降低数据率。
　　（3）基于人的听觉特性进行编码。
　　音频编码的分类如下：
　　(1) 基于音频数据的统计特性进行编码，其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。PCM（脉冲编码调制）是最简单最基本的编码方法。它直接赋予抽样点一个代码，没有进行压缩，因而所需的存储空间较大。为了减少存储空间，人们寻求压缩编码技术。利用音频抽样的幅度分布规律和相邻样值具有相关性的特点，提出了差值量化（DPCM）、自适应量化（APCM）和自适应预测编码（ADPCM）等算法，实现了数据的压缩。波形编码适应性强，音频质量好，但压缩比不大，因而数据率较高。
　　(2) 基于音频的声学参数，进行参数编码，可进一步降低数据率。其目标是使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低，但还原信号的质量较差，自然度低。
将上述两种编码算法很好地结合起来，采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如码本激励线性预测编码（CELP）、多脉冲激励线性预测编码（MPLPC）等。
　　(3) 基于人的听觉特性进行编码：从人的听觉系统出发，利用掩蔽效应，设计心理声学模型，从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和Dolby AC-3最有影响。
　　本节将介绍在关音频编码的基本算法与标准。

　　音频编码的分为三种类型：
　　（1）基于音频数据的统计特性进行编码，其典型技术是波形编码（waveform codec）。
　　波形编码的基本思想是，不利用生成语音信号的任何知识而是产生一种重构信号，它的波形与原始话音波形尽可能地一致。一般来说，这种编码方法的复杂程度比较低，数据率在　　16Kb/s以上，质量相当高。低于这个数据率时，音质急剧下降。
最简单的波形编码是脉冲编码调制(Pulse Code Modulation,简称PCM)，它仅仅对输入信号进行采样和量化。
　　（2）基于音频的声学参数，进行参数编码，可进一步降低数据率。
　　参数编码的基本思想是从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。在话音生成模型中，声道被等效成一个随时间变化的滤波器，它由白噪声--无声话音段激励，或者由脉冲串--有声话音激励。因此需要传送给解码器的信息就是滤波器的规格、发声或不发声的标志和有声话音的音节周期，并且每隔10-20ms更新一次。
　　这种编码方法的数据率在2.4Kb/s左右，产生的语音虽然可以听懂，但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事，这是因为受到话音生成模型的限制。尽管它的音质比较低，但保密性好，可以用在军事上。
　　将上述两种编码算法很好地结合起来，就是混合编码的方法。
　　混合编码的基本思想是希望填补波形编码和参数编码之间的隔阂。波形编码虽然可以提供高话音的质量，但在数据率低于16Kb/s的情况下，在技术上还没有解决音质的问题；而参数编码的数据率虽然可以降到2.4Kb/s甚至更低，但它的音质根本不可能与自然话音相提并论。为了得到音质高而数据率又低的编码器，就出现了混合编码的方法。这种方法希望寻找一种激励信号，使用这种激励信号产生的波形尽可能接近于原始话音的波形。
　　（3）基于人的听觉特性进行编码