Untitled Document

　　课前思考
　　多媒体技术的特点是交互式地综合处理声文图信息。在多媒体系统中，语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步，使视频图像更具真实性。娓娓动听的音乐和解说，使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。传统计算机与人交互是通过键盘和显示器，人们通过键盘或鼠标输入，通过视觉接收信息。然而听觉也是一个重要的信息通道。声音是人们最熟悉最习惯的传递信息方式。为计算机增加音频通道，使人机交互像人与人交流那样自然友好，这是人类的美好愿望。从第一台计算机诞生以来，专家们就为之付出了巨大的努力。设计师为计算机安上了"嘴巴"（扬声器），让计算机奏乐、讲话；还为计算机装上了"耳朵"（麦克风），让计算机听懂、理解人的讲话。网络专家还期望分布在不同地点的计算机成为"顺风耳"，实现音频实时传播。人们期望以最自然的方式与计算机交互，要求计算机不仅能处理文字、数字，还应能处理声音和图像。
本章共分九个小节，第一节综述了多媒体中音频信号处理应用和处理技术；第二节和第三节分别介绍了音频编码算法和部分音频编码的国际标准，这是本章的重点；第四节介绍了计算机话语输出的研究；第五节扼要介绍了音乐合成MIDI技术；第六节介绍了立体声模拟的一些基础知识；第七节介绍了音频基于内容检索的初步研究成果；第八节简单介绍了语音识别的研究现状；第九节列举了音频卡的现状和发展。
　　课前思考3.1节（多媒体中音频信息）
　　这一节是概述课，综述了多媒体中音频信号处理应用和处理技术，如：
　　多媒体中音频处理技术的应用领域？什么是模拟音频和数字音频？它们的特点是什么？什么是音频信息的数字化？什么是采样和量化？量化的过程？常用的音频采样频率有哪些？音频信号处理的特点？
　　带着这些问题，学习本章的3.1节。
　　课前思考3.2节（音频的编码基础）
　　音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中，数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此，人们在实施数据压缩时，要在音频质量、数据量和计算复杂度等三方面进行综合考虑。
　　为了实现音频数据压缩，多方面的专家致力于算法的研究，众多的企业致力于芯片和产品的研制，国际标准化组织也先后推出一系列建议。高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。
　　音频编码的分类？数据的压缩必然引起音频质量的降低，那么如何评价编/解码器的优劣呢？音频有几种基本的编码算法？什么是人耳的掩蔽效应？通过学习本节就可以找到答案。
　　课前思考3.3节（音频编码标准）
　　当前编码技术发展的一个重要方向就是综合现有的编码技术，制定全球的统一标准，使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上，对语音信号压缩编码的审议在CCITT下设的第十五研究组进行，相应的建议为G系列，多由ITU发表。
　　国际电报电话咨询委员会（CCITT）和国际标准化组织（ISO）先后提出一系列有关音频编码的建议。
　　带着下面的问题学习本节：音频编码有哪些国际标准？其中典型算法的基本原理是什么？
　　课前思考3.4节（计算机言语输出）
　　从科学研究到日常生活，计算机已渗透到了人类生活的方方面面。在现代社会中，人们愈来愈借助计算机来完成各项事务。在这种形势下，如何让计算机能够智能化地与人通讯，使人机交互更加自然方便成为了现代计算机科学的一个重要研究课题。而自然语言，这一人类生活中使用最广泛的通信方式，自然成为了人机交互方式的理想选择。计算机言语输出所要研究和解决的问题，就是如何利用计算机输出流利的自然语言，使计算机具备说话的能力。
　　计算机言语输出是一门跨学科的前沿技术它涉及到下列相互独立的各个领域：自然语言理解、语言学、语音学、信号处理、心理学、声学等。它将言语理解与语音生成技术结合在一起，使计算机具备说话的能力。
　　到目前为止，人们向计算机输入信息的主要途径是通过键盘和鼠标，而计算机反馈信息的输出方式是。这种单调的信息输出方式，特别是在的情况下。长时间地注视显示屏容易使人们产生疲劳感，并且将会降低人们获取信息和理解信息的能力。这种枯燥单一的交互方式影响了计算机的应用。
　　另一方面，在现代社会中，信息传输在人们的各项事务中起着十分重要的作用。随着多媒体技术和网络技术的发展，在许多应用中都有大量语音信号需要传送。目前语音信号的传送方式主要是将语音进行编码后传输。这样，要传输的数据量十分庞大，造成了很大的传输负担。
　　计算机言语输出有着广阔的应用前景，实现计算机言语输出可以为这两大问题提供良好的解决方案：
　　1）当屏幕显示有大量信息输出，长时间地注视显示屏容易使人们产生疲劳感，并且将会降低人们获取信息和理解信息的能力；
　　2）随着多媒体技术和网络技术的发展，在许多应用中都有大量语音信号需要传送。目前语音信号的传送方式主要是将语音进行编码后传输。这样，要传输的数据量十分庞大，造成了很大的传输负担。
　　3）它还可应用于残疾人帮助，电话信息查询，文本校对，火车站、飞机场的航班信息报告等领域。
　　实现计算机语音输出有哪两种方法？计算机话语输出按其实现的功能来分，可以分为哪三个档次？语音合成的方法是什么？构建语音基元数据库重点要考虑两个问题是什么？最好上述问题，学习这节内容。
　　课前思考3.5节（音乐合成和MIDI）
　　随着计算机的诞生，就实现了计算机奏乐，不过那仅仅是一个个单音，听起来单调。如何让计算机输出优美的音乐呢？最简单的方法是采取录音/重放方式。音乐的频带宽，需要提高其采样率和量化位数，因而数据率急剧增大。如用44.1K频率抽样，16位表示某立体声音乐，那么每秒钟的数据为176.4K字节。由此可见，若以此种方式存储音乐，即使计算机数据传输率允许，也只能存很短时间的乐曲。
　　是否可以采取合成方式产生音乐呢？答案是肯定的，电子乐器的蓬勃发展也已经证实。自1976年应用调频(FM)音乐合成技术以来，其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术－－波形表(Wavetable)全成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。
　　带着下面的问题学习本节：一个乐音必备的三要素是什么？乐音和噪音的主要区别是什么？什么是调频音乐合成？什么是波表合成？什么是MIDI？什么情况下使用MIDI？
　　课前思考3.6节（真实感声音的模拟）
　　在多媒体或虚拟现实系统中增加声音是非常必要的，然而，要使多媒体和虚拟现实系统中的声音具有真实世界的声音特性，却不是件容易的事。那时，声音不仅以响度表明她的存在，而且还以它的方向感信息显示出空间特性。我们称这种声音为三维真实感声音。
　　近年来，用计算机来生成真实感声音已引起广泛的关注。研究者首先从声音的本质入手，继而研究人对不同声音的感知特性。从这些原本属于物理声学和心理声学的研究结果中找到了影响人类对三维真实感声音感知的重要因素。
　　这里介绍了两种用于产生三维真实感声音的方法。三维真实感声音的研究还处于起步阶段，它与三维真实感图形的研究相比还显得很不成熟。
　　课前思考3.7节（基于音频内容的检索技术）
　　随着计算机和多媒体技术的迅速发展，在一个系统中集成多种媒体信息已不在话下，而检索日益庞大的多媒体数据却不那么简单。要想按内容检索，则更为困难。对音频来说，通常是把它作为一种不透明的数据集合来处理，仅涉及到它的文件名、文件格式和采样率。用户只能检索、浏览和读取相关的文本描述。若想了解音频对象的内幕则是不可能的。而多媒体数据库含有几千个音频数据是常有的事，那么要在这样的库内检索一个特定的声音或为声音分类都会令人胆怯。
　　本节将介绍音频分析、检索和分类技术，还将介绍将声音转化为感知参数以及音频检索的应用。读者如果有兴趣，可参考Multimedia ACM会议论文集，全国多媒体技术学术会议论文集（1992-2001）或其他有关的文献资料。
　　课前思考3.8节（语音识别）
　　口语是最自然最有效的交际方式，让说话替代键盘输入汉字是计算机使用者的愿望。这个愿望正在变成现实。其技术基础是语音识别和理解。语音识别是将人发出的声音、字或短语转换成文字、符号，或给出响应，如执行控制、做出回答。语音识别的研究已有几十年的历史。据预测，带有语音功能的计算机将很快成为大众化产品，语音识别将可能取代键盘和鼠标成为计算机的主要输入手段，使用户界面产生一次飞跃，所以语音识别所具有的商业前景是不可估量的。
　　带着下面的问题学习本节：什么是语音识别?语音识别系统的分类？语音识别研究的难点是什么？
　　课前思考3.9节（音频卡工作原理及应用开发）
　　早期的PC机声音输出是由微机内的计时器和机内场声器实现的。由于它编程不便、声音单调，已较少采用。近些年PC游戏兴起、多媒体技术发展，目前绝大多数的声音输出场由PC机的音频卡来实现。
　　市场上音频卡的型号繁多，其基本原理都是一样的。MPC3 对音频卡的要求是目前对音频卡的标准要求，但这还远远没有达到音频卡发展的目标，音频卡在近期的发展将主要集中在进一步改善声音质量、统一音频卡标准、简化安装方法、三维环绕立体声、全双工声音处理、与通信技术的结合以及单一芯片等方面。
　　音频卡的功能？音频卡的工作原理？音频卡的发展和改进？带着上面的问题学习本节的内容。　

　　学习目标
　　多媒体技术的特点是交互式地综合处理声文图信息。在多媒体系统中，语音和音乐是不可少的。没有音频的视频是不可接受的。通过第三章音频信息处理的学习，要求同学熟悉多媒体系统中对音频信息处理的一些内容，具体的学习目标是：
　　·熟悉多媒体中音频信号处理应用和处理技术；
　　·熟悉音频编码算法和部分音频编码的国际标准；
　　·了解计算机话语输出的研究；
　　·了解音乐合成MIDI；
　　·了解立体声模拟的一些基础知识；
　　·了解音频基于内容检索的初步研究成果；
　　·了解语音识别的研究现状；
　　·熟悉音频卡的现状和发展。

　　学习指南
　　3.1节（多媒体中音频信息）学习指南
　　这一节是概述课，综述讲述了多媒体中音频信号处理应用和处理技术。这些问题没有难度，看一下教科书即可。建议多找些综述文章，如会议论文集中的特邀报告、计算机世界技术专刊的综述文章，这样有利于同学们深入了解，多媒体中音频信号处理应用和处理技术。
　　3.2节（音频的编码基础）学习指南
　　从信息保持的角度讲，只有当信源本身具有冗余度，才能对其进行压缩。根据统计分析结果，语音信号存在着多种冗余度，其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的，所以考虑了人的听觉机理，也能对语音信号实行压缩。
　　希望同学熟悉音频编码的分类，了解如何评价编/解码器的优劣，进一步掌握音频的几种基本编码算法。
　　3.3节（音频编码标准）学习指南
　　通过这节学习，希望同学能够了解和熟悉国际电报电话咨询委员会（CCITT）和国际标准化组织（ISO）先后提出一系列有关音频编码的建议，如：
　　·G.711标准；
　　·G.721标准
　　·C.722标准；
　　·G.723标准；
　　·G.728标准；
　　·G.729标准；
　　等音频编码标准，重点熟悉其典型算法的基本原理。
　　3.4节（计算机言语输出）学习指南
　　在现实生活中，信息的表达是通过图像与声音结合的方式进行的。因而，通过计算机言语输出，使得计算机具有对信息进行讲解的能力，从而提供声文并茂的信息表示方式，可以极大地改善人机交互枯燥乏味的状况，为计算机的普遍应用创造条件。而在信息传送领域，由于计算机言语输出的实现，从文字到语音，甚至从概念到语音的转换为语音信号的传送提供了十分优越的解决方式。一段长为3K到4K字节的语音信号可以用一到两个字节的ASCII码来代替，这种大幅度的数据量压缩给信号传输网络带来的好处是显而易见的。
　　通过这节的学习，希望同学了解实现计算机语音输出有哪两种方法，计算机话语输出按其实现的功能来分，可以分为哪三个档次？要深入了解请参考有关的学术会议论文集。
　　3.5节（音乐合成和MIDI）学习指南
　　自1976年应用调频(FM)音乐合成技术以来，其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术－－波形表(Wavetable)合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。
　　通过这节的学习，希望同学了解一个乐音必备的三要素，乐音和噪音的主要区别，调频音乐合成和波表合成以及MID和什么情况下使用MIDI等方面的内容。
　　3.6节（真实感声音的模拟）学习指南
　　本节介绍了两种用于产生三维真实感声音的方法，同学可以看教材学习。要深入了解请参考有关的学术会议论文集或查找相关的资料。　
　　三维真实感声音的研究还处于起步阶段，它与三维真实感图形的研究相比还显得很不成熟。
　　3.7节（基于音频内容的检索技术）学习指南
　　基于内容的检索技术是多媒体计算机领域一个热点课题，通过这节的学习，希望同学了解音频分析、检索和分类技术，如何将声音转化为感知参数以及音频检索的应用。读者如果有兴趣，可参考Multimedia ACM会议论文集，全国多媒体技术学术会议论文集（1992-2001）或其他有关的文献资料。也可以阅读清华大学同学的毕业设计论文。
　　3.8节（语音识别）学习指南
　　随着计算机科学技术的发展，人们已经不能满足于仅仅通过键盘和显示器同计算机交换信息,而是迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通，让计算机能听懂人们说的话，或是用语音来控制各种自动化系统。使用人类自己交换信息的最直接最方便的形式--语言，来与计算机通信，一直是人类的梦想，从而也就诞生了一门新的学科--计算机语音学（computer phonetics）。人们对于计算机语音学的研究主要包括以下几个方面：语音编码（speech coding）、语音合成（speech synthesis）、语音识别（speech recognition）、语种识别（language identification）、说话人识别（speaker recognition）或说话人确认（speaker verification）等。
语音识别的目标长久以来一直是人们的美好梦想，让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要组成部分。尤其是在当今的信息时代，随着计算机处理和存储能力的不断增强，如何把大量信息输入计算机成为日益突出的问题，而语音识别就提供了一种最自然、最方便的方法。随着计算机的普及，越来越多的人在使用计算机，如何给不熟悉计算机的人提供一个友好的人机交互手段，也逐渐引起人们的重视，而语音识别技术就是其中最自然的一种交流手段。所以，随着计算机技术与应用的发展，语音识别也引起了越来越多的人关注。
　　通过这节的学习，希望同学了解语音识别的发展、分类、研究的难点和应用。
　　3.9节（音频卡工作原理及应用开发）学习指南
　　第一块音频卡是在1987年由Adlib公司设计制造，当时主要用于电子游戏，作为一种技术标准，几乎被所有电子游戏软件采用。随后，新加坡Creative公司推出了音频卡系列产品，广泛地被世界各地微机产品选用，并逐渐形成这一领域新的标准。音频卡的出现，不仅为电脑进入家庭创造了条件，而且也有力地推动了多媒体计算机技术的发展。
　　通过这节的学习，希望同学熟悉音频卡的功能、分类、工作原理以及音频卡的发展和改进？要深入了解请参考相关的资料。

　　难重点
　　本章是多媒体计算机的又一个关键技术。
　　本章的重点是：
　　(1) 多媒体中音频信号处理应用和处理技术；
　　(2) 音频的几种基本编码算法；
　　(3) 模拟音频和数字音频以及它们的特点；
　　(4) 声音数字化的两个步骤；
　　(5) 采样和量化；
　　(6) 音频编码的目和分类
　　(7) 音频卡的现状和发展
　　(8) 音频信号处理的特点是什么
　　(9) 音乐合成和MIDI
　　本章的难点是：
　　(1) 计算机话语输出的研究；
　　(2) 音频波形编码的三种基本的编码算法
　　(3) 波形编码的基本思想
　　(4) 参数编码的基本思想
　　(5) 混合编码的基本思想
　　(6) 音频基于内容检索的初步研究成果；
　　(7) 语音识别的研究现状。
　　(8) 评价编/解码器的优劣
　　(9) 部分音频编码的国际标准。
　　本章的重点希望同学能够熟悉，本章的难点希望同学能了解。

　　知识点
　　本章的知识点概括如下：
　　(1) 多媒体中音频处理技术的应用领域；
　　(2) 音频信息的数字化，模拟音频和数字音频的特点；
　　(3) 采样和量化及常用的音频采样频率；
　　(4) 音频信号处理的特点；
　　(5) 音频编码的分类；
　　(6) 如何评价编/解码器的优劣；
　　(7) 几种音频基本的编码算法；
　　(8) 音频编码的国际标准；
　　(9) 音频编码的国际标准典型算法的基本原理；
　　(10) 实现计算机语音输出的方法；
　　(11) 语音合成的方法；
　　(12) 一个乐音必备的三要素，乐音和噪音的主要区别；
　　(13) 调频音乐和波表合成；
　　(14) MIDI；
　　(15) 产生三维真实感声音的方法；
　　(16) 音频分析、检索和分类技术；
　　(17) 语音识别、语音识别系统的分类和语音识别研究的难点是；
　　(18) 音频卡的功能、工作原理、发展和改进。