让计算机说话,决不能是断断续续的音节,而应是连续自然,符合语言学规则的声音。根据人类的语言习惯,人在讲话前,首先要有意向(intention),然后在头脑中形成概念(concept),最后形成语言。目前,对人类大脑的高级神经活动了解甚少,语言合成仅处于文字到语音转换的层次上。文一语转换(TTS)是一种智能型的语言合成,它涉及到语言学、语音学、语音信号处理、心理学等多个领域。它综合多学科的研究成果,将文学转换成声音,是我们解决计算语音输出的一种好方法。 国内一些科研单位对计算机语言输出也进行了大量的研究,其中清华大学、中科院声学所、中国科技大学、语言所等单位都取得了一定的成绩。目前世界上已研究出多种语言的TTS系统,如英、法、日、德等。如许多音频卡上都带有英语TTS软件。法国CNET实现的多语种TTS已在电话网中,用于公共话音服务。清华大学的Sounic系统是一个基于波形编辑的文语转换系统。该系统利用汉语词库进行分词,并且根据语音学研究的成果建立了语音规则,对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征,提高了言语输出的质量。 下面仅就汉语TTS系统介绍TTS的基本工作原理。清华大学计算机系实现的汉语TTS系统Sonic 框图如图3.29。整个软件分成四个主要模块: 语言学处理、语音学处理、波形编辑合成和安装程序。 图3.29 Sonic 系统框图 ![]() 其中预处理包括:全角字符转换为半角、滤掉系统不能辨识字符、检查控制符的合法性; 语言学处理包括文本规范化,对输入文本的语意,语法和词法分析,提取出其中的韵律特征,对输入文本增加必要的韵律符号,完成字位到音位的转换。声学处理是按语音规则将发音描述进一步变成语音合成器的控制参数,同时接由语言学处理加入韵律符号来控制合成语音的重音、声调、时长等超音段特征。具体处理如下: 语言学处理依赖自然语言理解的研究成果。目前可实现的处理是分段、断句、分词,根据人们在表达上的习惯,在文本中插入长短不等的停顿,以提高语音流的节奏感和自然度,便于听者的理解。 自动分词是汉语自然语言理解的基础。它把不带词边界标志的语句,自动切分成符合语言含义的词串。分词算法大致可分为两类:机械匹配方法、理解式分词方法。机械匹配法是基于字符串匹配的原理进行的。理解式分词实际上是一个自动分词专家系统。经包括词库、知识库和推理机。推理机利用词库和知识库提供的大量数据和知识,模拟语言学家的逻辑思维过程,实现自动分词。不管哪种分词算法都应能较好地处理歧义词串、未登录词等问题。对于TTS系统中的分词,还应增加一些特殊处理,如将连续单字词按某种规则级连成"词",以提高输出语流的自然度。 语音学处理包括文本替换、多音字处理、变音、变调。文本替换就是把文本用它的汉字发音字来替换,如把"二"换成"等于"。多音字处理的目的是使一字多音的字在相应的词中得以正确发音。变音变调的处理在连续语流输出中非常重要。因为流语音节在连续语流中会发生音变、调变、弱化、儿化。通常应进行以下几项处理: ·变调处理:处理词组中,由于前后音节协同发音而引起的声调变化。如两个上声相连,前面的上声近似太阳平;上声在非上声之前变半上声等。 ·变音处理:处理重音音节的音长、音强和音高变化。 ·经声处理:处理音节的弱化问题。"妈妈"一词中的第二个"妈"字读轻声。 ·儿化处理:处理音节的儿化问题。如"纸条儿"。 TTS系统的核心是语音合成,上节已简介了语音合成技术。参数合成和波形编辑方法在TTS系统都有采用。在实施语音合成时,要处理好基元选取、能数提取、实时合成及输出的平滑滤波等一系列问题。 汉语文--语转换系统? 汉语文--语转换(TTS)是一种智能型的语言合成,它涉及到语言学、语音学、语音信号处理、心理学等多个领域。它综合多学科的研究成果,将文字转换成声音,是我们解决计算机语音输出的一种好方法。 为了更清楚地了解文--语转换(TTS)的工作原理,下面以清华大学计算机系蔡连红教授研制的Sonic系统为例说明。Sonic系统是一个基于波形编辑的文语转换系统。该系统利用汉语词库进行分词,并且根据语音学研究的成果建立了语音规则,对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征,提高了言语输出的质量。 Sonic 框图详见教材图3.29,整个系统可分为四个主要软件模块: 语言学处理、语音学处理、波形编辑合成及安装程序。 预处理包括全角字符转换为半角、滤掉系统不能辨识字符、检查控制符的合法性。 语言学处理包括文本规范化,对输入文本的语意,语法和词法分析,提取出其中的韵律特征,对输入文本增加必要的韵律符号,完成字位到音位的转换。声学处理是按语音规则将发音描述进一步变成语音合成器的控制参数,同时由语言学处理加入韵律符号来控制合成语音的重音、声调、时长等超音段特征。 语音学处理包括文本替换、多音字处理、变音、变调。文本替换就是把文本用它的汉字发音字来替换,如"二"换成"等于"。多音字处理的目的是使一字多音的字在相应的词中得以正确发音。变音变调的处理在连续语流输出中非常重要。因为流语音节在连续语流中会发生音变、调变、弱化、儿化。 TTS系统的核心是语音合成,上节已简介了语音合成技术。参数合成和波形编辑方法在TTS系统都有采用。在实施语音合成时,要处理好基元选取、能数提取、实时合成及输出的平滑滤波等一系列问题。 |