音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。
  为了实现音频数据压缩,多方面的专家致力于算法的研究,众多的企业致力于芯片和产品的研制,国际标准化组织也先后推出一系列建议。高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。

  音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。从信息保持的角度讲,只有当信源本身有冗余时,才能对其进行压缩。
  根据统计分析结果,语音信号中存在多种冗余,其最主要部分可以分别从时域和频域来考虑。另外,由于语音主要是给人听的,所以也要考虑人的听觉感知机理。因此,可以从以下三个方面来考虑音频信号的冗余度:
  ·时域信息的冗余度
  ·频域信息的冗余度
  ·人的听觉感知机理

  时域信息冗余度体现在以下几个方面:
  ·幅度的非均匀分布
  ·样本间的相关
  ·周期之间的相关
  ·基音之间的相关
  ·静音系数
  ·长时自相关函数
  频域信息冗余度体现在以下几个方面:
  ·非均匀的长时功率谱密度
  ·语音特有的短时功率谱密度
  从人的听觉感知机理方面对音频信息进行压缩,主要有:
  ·人的听觉具有掩蔽效应
  ·人耳对不同频段的声音的敏感程度不同
  ·人耳对语音信号的相位变化不敏感

  下面将介绍音频编码的分类:
  (1)基于音频数据的统计特性进行编码,其典型技术是波形编码。
  (2)基于音频的声学参数,进行参数编码,可进一步降低数据率。
  (3)基于人的听觉特性进行编码。
  音频编码的分类如下:
  (1) 基于音频数据的统计特性进行编码,其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。PCM(脉冲编码调制)是最简单最基本的编码方法。它直接赋予抽样点一个代码,没有进行压缩,因而所需的存储空间较大。为了减少存储空间,人们寻求压缩编码技术。利用音频抽样的幅度分布规律和相邻样值具有相关性的特点,提出了差值量化(DPCM)、自适应量化(APCM)和自适应预测编码(ADPCM)等算法,实现了数据的压缩。波形编码适应性强,音频质量好,但压缩比不大,因而数据率较高。
  (2) 基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低,但还原信号的质量较差,自然度低。
将上述两种编码算法很好地结合起来,采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如码本激励线性预测编码(CELP)、多脉冲激励线性预测编码(MPLPC)等。
  (3) 基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和Dolby AC-3最有影响。
  本节将介绍在关音频编码的基本算法与标准。

  音频编码的分为三种类型:
  (1)基于音频数据的统计特性进行编码,其典型技术是波形编码(waveform codec)。
  波形编码的基本思想是,不利用生成语音信号的任何知识而是产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编码方法的复杂程度比较低,数据率在  16Kb/s以上,质量相当高。低于这个数据率时,音质急剧下降。
最简单的波形编码是脉冲编码调制(Pulse Code Modulation,简称PCM),它仅仅对输入信号进行采样和量化。
  (2)基于音频的声学参数,进行参数编码,可进一步降低数据率。
  参数编码的基本思想是从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。在话音生成模型中,声道被等效成一个随时间变化的滤波器,它由白噪声--无声话音段激励,或者由脉冲串--有声话音激励。因此需要传送给解码器的信息就是滤波器的规格、发声或不发声的标志和有声话音的音节周期,并且每隔10-20ms更新一次。
  这种编码方法的数据率在2.4Kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但保密性好,可以用在军事上。
  将上述两种编码算法很好地结合起来,就是混合编码的方法。
  混合编码的基本思想是希望填补波形编码和参数编码之间的隔阂。波形编码虽然可以提供高话音的质量,但在数据率低于16Kb/s的情况下,在技术上还没有解决音质的问题;而参数编码的数据率虽然可以降到2.4Kb/s甚至更低,但它的音质根本不可能与自然话音相提并论。为了得到音质高而数据率又低的编码器,就出现了混合编码的方法。这种方法希望寻找一种激励信号,使用这种激励信号产生的波形尽可能接近于原始话音的波形。
  (3)基于人的听觉特性进行编码