3.4.6.1 TTS系统
  这里介绍两个TTS系统,它们用于实现英语文--语:
  (1)DEC Talk
  这是DEC公司在MIT的KLATT教授研制的语音合成器的基础上开发的语音生成系统。KLATT设计的是一个串/并联混合型共振峰合成器,可以设置多到八个共振峰,并有单独的滤波器来模拟鼻腔和气管的共振。对声源可做调整或多种选择,以模拟不同的嗓音。DEC Talk是一个较成功的商用系统。目前,在这一基础上开发出了质量很高的英语文-语转换系统。它支持多种平台、提供多种操作系统API。DEC Talk软件支持九种预定义的嗓音:四种男声、四种女声和一个儿童声音。API和内嵌命令可以控制嗓音、速度和音量。DEC Talk由八个处理线程组成:文本排队、命令分析、字位到音位的转换、语言和语音处理、声道模型、波形播放、同步和时钟。
  (2)AT&T Bell文语转换系统
  这是美国AT&T贝尔实验室研制的文语转换系统,它最初用于英语的文语转换,现在正扩展到其它语种。其整个系统可以分为两个子系统。第一个子系统完成正文分析和语言学分析。其中包括:①正文处理,将输入文本进行合理分段。如断句、分词、缩写扩展。②重音标注,对句中各词语标为三个重音级别。③标音。将正文转换为音标表示。这里要能正确决定人名、多音字的正确发音。它使用了一种统计方法来处理音字对应关系。④语调短语标注,划分句中各个语调短语。⑤音长标注,确定句中各部分的时长。这里用到了时长模型(Duration Models), 它使用数字表达式来描述如何运用不同的条件来确定语音段的时长。⑥语调处理,计算语句的调轮廓。第二个子系统完成语音合成。它由下列子模块组成:①语音的参数表示。②语音参数到语音信号基元的转换。③语音合成基元的选择与拼接。合成基元选为Diphone 和一些Triphone。合成参数是LPC系数,采用残差激励。AT&T贝尔实验室的文语转换系统体现了文语转换系统的主要特征,具有一定的代表性。
  3.4.6.2 计算机言语输出技术展望
  (1) 特定应用场合的计算机言语输出系统:
  由于计算机言语输出的复杂性,用于普遍场合的言语输出系统的质量还不能达到使用户满意的地步,然而对于特定的应用,可以使系统达到实用的水平。如仪器设备中的语音提示;语音合成、数据库与电话系统的结合,实现有声信息服务。
  (2) 韵律特征的获取与修改
  人说话时含有丰富的韵律特征,这些特征对于表达语义和感情起着至关重要的作用。然而大部分书面语并不能携带丰富的韵律信息。如果忽视自然语言的韵律特征、个人特色,那么通过计算机言语合成只能得到单调枯燥的语音。当前,如何在合成的言语中增加韵律信息是计算机言语输出研究的热点问题。如采用神经网络训练系统、抽取韵律描述规则、设计韵律置标语言等。这些研究的成果将不断改善合成语音的自然度、提高其表现力。另一方面,合成系统也将模拟出具有特定音色的声音。
  (3) 语言理解与语言合成的结合
  为了产生高质量的计算机言语输出,必须对所要输出的语言有一定的理解,然后在输出的言语中更好地表达语义,从而提高输出言语的可理解度。自然语言理解和语言生成的结合为实现这一目标提供了途径。
  (4)计算机言语输出与计算机言语识别的结合
  计算机言语输出与计算机言语识别是互补的两门学科,它们有许多相似之处,在某些方面它们可以相互借鉴。它们也是人机自然语言交互的两大基石。计算机言语输出和识别的成功将为通过自然语言实现人机交互创造条件。
  (5)计算机言语输出与图像处理相结合。
  最近的一些研究表明,言语输出与图像处理相结合可以帮助听者的理解。在言语输出的过程中伴以话者的表情,可以更好地表达感情和语气,有利于听者的理解。与图像信息相结合为提高言语输出的质量提供了一条有效的途径。
  计算机言语输出的发展方向
  (1) 特定应用场合的计算机言语输出系统:
  由于计算机言语输出的复杂性,用于普遍场合的言语输出系统的质量还不能达到使用户满意的地步,然而对于特定的应用,可以使系统达到实用的水平。如仪器设备中的语音提示;语音合成、数据库与电话系统的结合,实现有声信息服务。
  (2) 韵律特征的获取与修改
  人说话时含有丰富的韵律特征,这些特征对于表达语义和感情起着至关重要的作用。然而大部分书面语并不能携带丰富的韵律信息。如果忽视自然语言的韵律特征、个人特色,那么通过计算机言语合成只能得到单调枯燥的语音。当前,如何在合成的言语中增加韵律信息是计算机言语输出研究的热点问题。如采用神经网络训练系统、抽取韵律描述规则、设计韵律置标语言等。这些研究的成果将不断改善合成语音的自然度、提高其表现力。另一方面,合成系统也将模拟出具有特定音色的声音。
  (3) 语言理解与语言合成的结合
  为了产生高质量的计算机言语输出,必须对所要输出的语言有一定的理解,然后在输出的言语中更好地表达语义,从而提高输出言语的可理解度。自然语言理解和语言生成的结合为实现这一目标提供了途径。
  (4)计算机言语输出与计算机言语识别的结合
  计算机言语输出与计算机言语识别是互补的两门学科,它们有许多相似之处,在某些方面它们可以相互借鉴。它们也是人机自然语言交互的两大基石。计算机言语输出和识别的成功将为通过自然语言实现人机交互创造条件。
  (5)计算机言语输出与图像处理相结合。
  最近的一些研究表明,言语输出与图像处理相结合可以帮助听者的理解。在言语输出的过程中伴以话者的表情,可以更好地表达感情和语气,有利于听者的理解。与图像信息相结合为提高言语输出的质量提供了一条有效的途径。