多媒体技术的特点是交互式地综合处理声文图信息。在多媒体系统中,语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步,使视频图像更具真实性。娓娓动听的音乐和解说,使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。
  传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。然而听觉也是一个重要的信息通道。声音是人们最熟悉最习惯的传递信息方式。为计算机增加音频通道,使人机交互像人与人交流那样自然友好,这是人类的美好愿望。从第一台计算机诞生以来,专家们就为之付出了巨大的努力。设计师为计算机安上了"嘴巴"(扬声器),让计算机奏乐、讲话;还为计算机装上了"耳朵"(麦克风),让计算机听懂、理解人的讲话。网络专家还期望分布在不同地点的计算机成为"顺风耳",实现音频实时传播。人们期望以最自然的方式与计算机交互,要求计算机不仅能处理文字、数字,还应能处理声音和图像。最早进入千家万户的多媒体计算机(MPC)就是增加了音频的普通计算机。1990年,世界上几家较大的多媒体计算机厂商成立了多媒体市场协会(Multimedia PC Marking Council)进行多媒体标准的制定和管理。1991年,该组织依据当时PC机的水平和多媒体信息处理能力,制定了多媒体PC机的基本标准(MPC I 标准)。MPC II 标准规定了PC机多媒体扩展的基本要求、多媒体PC的基本框架。MPC I 规定多媒体PC的最低配置是一台普通PC机,增加一块音频卡及一个CD-ROM驱动器。到1995年,MPC标准更新为MPC III ,对多媒体的表现能力提出了更高的要求。
  音频被用来传递消息、意向、情感,是人类最熟悉的传递消息的方式。音频携带的信息量大、精细、准确。以某个汉字为例,表3.1列出了其表达方式、数据量和信息:
 表3.1 一个汉字的表示
表示方式
数据量
信息
汉字内码
2 字节
汉字名称
点阵
32-几百字节
带有字型、字体特征的汉字
声音
几千字节
汉字名称、声学特性、意向或情感

  随着多媒体信息处理技术的发展,计算机数据处理能力的增强,音频处理技术受到重视,并得到了广泛的应用。如:视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果;虚拟现实中的声音模拟;用声音控制Web,电子读物的有声输出。除了上述众所熟知的音频技术应用外,这里再举几个应用示例:
  (1)Internet 电话 (IP phone):
  通过Internet打电话有许多优点:它的费用低;若是计算机到计算机的IP phone不必另加电话装置,使用计算机的多媒体组件即可。由于它基于数字音频技术,因此有可能在电话产品上附加一些诱人的特性。如指出通话对方的电子邮件的地址;进行复杂的安全加密,使偷听者听不到一个字;还可进行热线聊天;主谈者可能扫描来访者,任意选择所希望的交谈者。这些软件产品的广告是:"Call anywhere; Talk forever; Never pay long distance."也可能将电话交换机与Internet合二而一。如建立呼叫中心,将访问Web网点与IP电话结合起来。让电话中心使最终用户通过Internet与客户服务代理建立联系。那便是电话-电话的IP phone。
  Internet 电话产品有很多种,下面选列几种:
Farsite
Internet Phone
SoftFone
VDOphone
FreeTel
Internet Video
Sound Ideas
Webphone
Internet Call
NetMeeting
Speak Freely
Internet Conection phone
WebTalk
PGPphone
Talk Show

  Internet电话,体现了计算机和电话的结合,其实质是计算功能对通信的渗透。计算机应具有以下功能:能够接收电话信息、能够控制通话过程、能够按电话中提供的信息,指示PC机完成特定任务。如指导打电话者使用菜单获取有关信息。
  在实际使用中,Internet电话还有许多不尽人意的地方:
  ①通话质量不太好:这表现在说和听之间有滞后;话音中有噪声,或当网络速度较慢时,话说的音调可能会断断续续。解决上述问题的根本在于增加Internet的带宽,与之相配的研究高压缩比、低码率的音频压缩算法,以及网络传输质量保证技术。
  ②缺乏公共的标准:早期的Internet电话厂商都希望以其产品作为一种标准。然而上百家公司的产品各异。为此若想用Internet电话软件通话,双方必须具有相同的软件。如果我的对话使用不同的软件,即使电话软件几十美元,那花费也较大的。
  目前,诸多公司在商议将它们的产品集成为单一的标准。而且这一标准将与IETE的有关Internet会议管理的RTP/PTCP的RSVP规格一起,并入ITU的T.120数据会议和H.323音频及视频会议标准中,并支持开放的API。
  ③法规的麻烦:美国ACTA(America's Carriers Telecommunications Association)代表130家小电信经营商上书美国联邦通信委员会FCC,要求取缔所有这些产品,(Internet上进行语音通讯)。声称这是为了阻止不公平竞争。
  (2) 声音欺骗系统:
  在军事上,复制敌人声音将作为一种作战技巧。美国研制的一种声音欺骗系统,它可以截获敌人的无线电信号,改变其内容并用敌军话务员的原声把信号重新传送出去。这样,就可以迷惑敌军飞行员、地对空导弹操作员甚至地面战术部队的指挥员。
  声音伪造装置将截获的信号分割成0.25秒的片断,这些片断可能从一连串词语中分割出来或在这些词语中进行移动或变动,从而得出带有欺骗性的新信息,而不改变敌军讲话人的声音。
  进一步研究的装置能够把敌军话务员的声音分为几十个音素。这些因素构成一个说话人所发出的特有的声音。将这些音素转换成参考模板,储存在电子图书馆里,并可随时进行检索。情报技师可用自己的声音讲话,但只要触发相应敌军话务员的音素参考模板,无线电播出的声音听起来,就会和敌军话务员一模一样。
  战场上,时间就是生命。指挥员传送伪造的反信息,即使不能经受彻底检查,也能引起短时间的混乱、耽搁和疑惑。同时,实践中还要防止或 军把伪造的电文截取下来当作有效信息,预防措施是非常关键的。
  声音欺骗系统需要高超的声音分析技术和语音合成技术。
  (3) 现代"芝麻开门"系统:
  童话中的阿里巴巴利"芝麻开门"的咒语防止不相干的入进入它的宝库,而现代"芝麻开门"系统比童话更好地防止假冒 。这一进口通道控制的自动化系统是一个声音、图像和动作的综合认知系统。它的信息输入部分由一个话筒和一个装在半透明的镜子后面的摄像机组成,训练时系统把人的声音和和嘴唇动作存入一个处理器。识别时,有关的人站在镜子前(要能在镜子前看到自己),然后说出名字或代号。对声音进行频谱分析。对根据嘴唇动作记录的视频图像进行处理、抽取运动矢量。系统还获取了一幅静态图像,记录了脸型、眼睛和发际的表态特征。用三个数据来进行识别,准确可靠。
  从技术上讲,此系统用到了说话人识别、图像识别。
  (4) 用光盘听书:
  这是通过计算机或专用设备,访问存于光盘中的电子出版物,并用声音将其读出的一种装置。读者可通过简单的操作,根据目录"听"到一本书的任意一页或其中的某一段。这将极大地改变目前盲文书籍和磁带给盲人带来的不便。
  电子出版物的有声输出可采用录音/重放方式,也可采用语音合成技术。通过语音合成技术,还可以实现有声电子邮件、有声主页。
  (5) Internet上的实时音频:
  Internet上的音频可能是已录制的音频文件、唱片,或者是广播节目。这一技术意味着你有可能从Internet收听到连续播放的音频。例如你可能在Internet上听音乐会或体育比赛的实况转播,或收听NPR、ABC、PBS等广播公司的广播。
  实际上,目前这一技术可以做到的是在一个音频文件完全下载之前,就开始播放。常见的软件选列如下:
 表3.2 Internet上的音频
公司
产品
Internet 地址
DSP Group
True Speech
www.dspg.com
Fastman
RapidTransit
www.monsterbit.com
LiveUpdata
CrescendoPlus
www.liveupdata.com
MVP Solution
Talker
www.mvpsolution.com
Progressive
RealAudio
www.realaudio.com
SSEYO
Koan
www.sseyo.com
VocalTec
InternetWave
www.vocaltec.com
Voxware
ToolVox
ftp2.voxwarw.com
Xing
stream-works
www.xingtech.com
Yamaha
Midplug
www.yamaha.co.jp
公司
产品
Internet ADD

 RRealAudio传输音频如下:
传输率(kbps)
音频
14.4
16位,8KHz
22.8
16位,16KHz,22KHz
单声道
56/64
16位,16KHz-44KHz
单声道
128
HIFI
双声道
384
VHS

  Web上的优秀音频技术依赖于缓冲(buffering)、编/解码(codec)和音频流技术。实施这些技术的算法和发送音频数据时的方式又可分为VOP、TCP或IP。
  缓冲虽然会使你延迟1~2秒听到音频,但可让你在一个文件中即时进行回放定位,如快进、回绕或检索一个音频文件。缓冲技术的算法是在内存中分区存储一些音频信息包(通常为12个左右),在播放过程中,缓冲区不断从服务器接收新的数据。这样,音频播放器就可以弥补传输延迟实现很平滑的回放。
  编解码技术是先对数据进行压缩处理、后传输,在接收端再解码。在实现中应尽量用高压缩率、高效率(快速)的算法。
  音频流技术允许在一个文件中实时重定位及下载数据的同时播放音频文件。在音频流技术中,音频的最小单元是单个的数据包。音频流播放器一边接收一边播放这些音频包。由于音频流技术中的通信是双向的,有时音频播放机可以从服务器请求传送一个指定的音频包。这样就使音频播放机的快进、回绕、搜索特性成为可能。当通过局域网及专线与Internet 高速连接时,可采用TCP模式,它会给你提供高质量的音频。拨号入网的用户应选择UDP模式。
  UDP(User Data gram Protocol)用户数据协议,是一种不带纠错功能的面向宽带的流协议。它对小的数据包有一个高的优先权,因此传送的很快,但不能确保发送中不丢。看来,虽然UDP可能是传输音频流效率最高的方式,但它可能丢包。这种缺陷只能由使用它的应用程序来处理。另一方面是当采用UDP协议来传输大批数据时,基于UDP的应用程序会使网络饱和。Progressive Network的Real Audio产品采用了此协议。
  TCP(Transmission Control Protocol)是Internet上使用最普遍的协议。它被用于大数据量的传输,且可保证包发送。它还与数据流控制机制相结合,确保Internet上所有用户平等使用资源。通常,它的数据包比UDP协议的大,因而更适于大数据量的传送。在用TCP传送时,如果一个包丢失了,服务器必须重新发送此包,导致传送延迟。这有可能使音频播放"暂停",直到包传送完成后,才能继续发声。Vocal Tec的I-Wave产品使用了此传输控制协议。
  Xing Technology的Stream Works产品使用IP (Internet Protocol)多配置:生成一个主群组,由服务器发送的IP数据体(data ram)被该主群组的组员接收。在一个主群组中,组织资格是动态的。当你在访问一个音频流服务器时,你的计算机就变成了某个主群组的成员。
  通常,UDP最好是用在音频的即时发送应用中,如Internet Phone产品。如果不考虑TCP的包大小,重传输的局限的话,TCP是最符合大多数目的解决方案。在相同的音频将发送给许多人,IP多配置是较理想的。
  在Web上获得音频时,如何面对现实在Web上获得较满意的音频呢?此时常见的问题是音频的断续。这是由重包造成的。那么,你应该使用最快的Modem速率,或者换上一个高速的CPU,缩短处理音频所需的时间,留下较多的时间让CPU处理即将到来的数据。
  通过本小节的学习,同学应掌握音频处理技术的应用领域。
  随着多媒体信息处理技术的发展和计算机数据处理能力的增强,音频处理技术倍受重视,并得到了广泛的应用。如:视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果;虚拟现实中的声音模拟;用声音控制Web,电子读物的有声输出。除了上述众所熟知的音频技术应用外,还可以应用的领域有:
  ·Internet 电话 (IP phone);
  ·声音欺骗系统;
  ·现代"芝麻开门"系统;
  ·用光盘听书;
  ·Internet上的实时音频等
  ·关于其他方面的应用,同学可以查阅相关的资料。