随着计算机和多媒体技术的迅速发展,在一个系统中集成多种媒体信息已不在话下,而检索日益庞大的多媒体数据却不那么简单。要想按内容检索,则更为困难。对音频来说,通常是把它作为一种不透明的数据集合来处理,仅涉及到它的文件名、文件格式和采样率。用户只能检索、浏览和读取相关的文本描述。若想了解音频对象的内幕则是不可能的。而多媒体数据库含有几千个音频数据是常有的事,那么要在这样的库内检索一个特定的声音或为声音分类都会令人胆怯。
  实际上,人类还有多种方法去检索声音,如:
  ·直喻(simile):说一个声音象一个或一组声音。更简单的例子是说它属于某一类声音。这里,系统需先用另外的声音对这一类里加以训练。
  ·声音/感知特性:用可理解的共同物理特性来描述声音,如亮度、基频的音量。
  ·主观特性:用人类的描述语言来说明声音。可以使用一些实例来训练系统以理解这些说明的含意。如用户可以寻找"明亮"声音。
  ·拟声(onomatopolia):让一个声音在某些音质上类似于你要找的声音。如用户可以制作一种"嗡嗡声",以此去寻找蜜蜂或电子蜂鸣器的声音。
  美国的研究者开发了一个含有几百个声音的数据库及其浏览器Sound Fisher。在应用中,首先利用各种分析技术把声音变成一组参数,然后,对参数进行统计,以实现分类和检索。上述方法应与传统的关键字或文本查询方法结合起来使用。
  同时,多媒体视频会议、CWCW的研究和市场日益受到重视,那么如何自动存取共同工作中的大量共享数据将变得十分重要。未经压缩的视频数据达每秒150K~1.2M字节。通常它们被作为线性数据流存储。在多点会议系统中,可能是一组并行数据流。这样复杂巨大的数据流,即使是有价值的,也很难处理和使用。因此实现基于音频内容的分类检索和回放是非常必要的。这就需要:
  -组织好会议记录,并建立索引。这样,人们才可以按语义,以有效地方式存储或访问信息。
  -为用户提供一个对话和检索信息的界面。其方式要简单 自然和有效。
  为了实现音频信息的基于内容检索,国内外均开展了多方面的研究。加拿大的滑铁卢大学和多伦多大学研究了视频会议中的检索技术。他们建立了称为Jabber 的检索系统。试图利用检索技术和人机交互技术来注释、 浏览、检索巨大的信息仓库。
  本文将介绍音频分析、检索和分类技术,还介绍了将声音转化为感知参数以及音频检索的应用。