3.7.5.1 简介
  Jabber是滑铁卢大学与多伦多大学的研究者建立的检索系统,为处理多媒体视频会议中巨大的数据流而设计,其目的是实现基于音频内容的分类检索并在此基础上进行全部信息的回放。下文将描述一些对任意多媒体信息提供便捷的随机查询的技术。
  Jabber的结构大致如下:以Intel公司的产品Proshare为底层,它支持多点会议,为检索系统提供数据流,其中的音频信号经语音识别系统ICSS处理后,得到一系列单词,由LexTree在WordNet的协助下将其组织成语义上相关联的树形结构,每棵树代表着一个主题(topic/theme),从而形成主题的索引,在此基础上可进行基于实际内容的检索,而实际内容与会议原定议程可能会有出入,Agenda Management确定当前进行到哪一项议程,从而可以进行基于原定内容的检索。而Temporal idiom Recognition则直接对音频信号进行简单的信号处理,针对其时间上的特性确定当前的时间结构,可对交互方式进行检索。可以看出,该系统的核心部分是在语音识别的基础上对文本进行基于主题的查询。
  3.7.5.2 语音识别
  该系统的语音识别部分是由ICSS即IBM连续语音系统(IBM Continuous Speech System)来完成的。该系统市非特定人、连续语音识别系统,但目前只能在1000到2000间的词汇量下较好的工作,因此,如果语言识别技术发展不足够快,将来可能会是该检索系统的障碍。但视频会议的一些具体特点也简化了语音识别工作,如:可以控制麦克风的品牌及放置,针对即将进行的会议对相关词汇进行准备,并且由于不同的讲话者从各自不同的工作站上发言,可以方便的识别讲话者等。
  3.7.5.3 建立主题的索引及基于实际内容的检索
  简单的记录发言人的每个单词并不能形成一个有意义的索引,该系统将自动对单词进行处理,实时生成一个主题的索引,这是基于一个称为词汇连接(Lexical Chaining)的技术来实现的。这种技术能够从发言中找出语义上相关联的一组词,我们将这一组词视为会议中的主题。词汇连接技术将词汇按照其词义关系(lexical relation)进行分组,从而每个组可以代表一个主题。
因此,对于两个词之间是否存在词义关系的判断就很重要,如在句子"某某爱吃苹果,她喜欢水果"中,苹果与水果两个词之间存在着从属关系。该系统对词义关系的判断主要依靠WordNet,WordNet是一个含9万词的在线主题词表,它将词汇通过许多种语义上的关系相连,它不仅像传统的主题词表那样,将同义词、反义词相连,而是通过一组更丰富也更复杂的关系将词汇相连,如整体与局部的关系、子关系等等。
  该系统还设有一个stop list,即一些常用不能反映出讲话特点,在处理中可被忽略的词。也就是说,音频信号经语音识别后得出的单词,经判断若不在stop list当中,则需考虑其与其它识别出的词语的关系,具有词义关系的两个词汇将被连接在一起,但Jabber中,并不将其形成一维的词汇链而是生成词语树(lexical tree),因为开发者认为树形结构能够更好的描述复杂的人类语言,从而在词语树中,一个词可能会与许多不同的词相连。在词语树中,两个词相连时,不仅考虑它们语义上的联系,还要考虑到时间上的联系,与多个词具有语义关系的词将被连在发言中与其距离最近的词上。
  LexTree就是完成上述功能,从而可将任意文本转化为词语树,不同词语树代表不同主题,从而形成了主题的索引,只需将每个词被说出的时间记录下来,并将其与该词所在的词语树相联系,则索引中的每个主题就具有了时间指针,对主题进行查询后,可从所选定的主题相关联的时间处开始进行全部信息的回放,系统可在会议过程中动态的将所识别出的主题列出供用户选择。
LexTree还允许用户通过设置参数来影响词汇树的生成,如:
  □类型相容性:用户可决定哪些词义关系是相容的
  □词汇距离:不同词汇可以相隔多远。等
  开发者对于这些参数的设置进行了一些测试以决定最优化配置。并将系统自动生成的词语树与一组测试者人工生成的类似结构进行了比较,认为该系统所生成的树能较好的描述文章主题。
  3.7.5.4 基于原定内容的检索
  为实现基于原定内容的检索,只需在会议前在系统帮助下生成描述会议议程的词汇树并存储,会议过程中,由议程管理部分将其与当时的数据库进行比较以确定当前进行到哪一项议程,并保证用户能对会议议程的词汇树进行修改或增删,从而实现基于原定内容的检索。
  3.4.5.5 基于时间结构的检索
  会议中存在不同的交互模式,这可以通过时间结构来描述,以下是我们较为熟悉的几种不同的谈话方式:
  (1) Discussion (2) Argument (3) Presentation
  A ---- ---- ---- A ------ ------ ------ A -------------- --------------- ----------
  B ---- ---- B --------- ------ B --- -- --
  可以看出,对话在时间上的特性可以刻画出不同的交互模式,交互模式变化的时候往往是作出决定的时候(decision point),因此还可以对决定点进行检索。
  为此只需对音频进行简单的信号处理,确定每个与会者当前是否在讲话,计算讲话者讲话与停顿的时长,并计算出不同的讲话者间的重叠程度,从而可确定当前的交互模式,并基于此进行检索。当然也可将上述各种检索方式联合起来进行检索,如:
  □查询A与B的关于预算问题的讨论
  □查询有关议程2的所有发言
  □显示所有决定点(decision point)等
  Jabber中的基于主题查询是优于传统的基于关键字的查询的,不仅能更有效的使查询满足用户要求,甚至在用户没有参加会议的情况下,也可为其提供索引,而传统的基于关键字查询将使人无从下手,因此,这一技术也可推广至其他基于内容查询的相关部分中去。