Untitled Document

　　3.4.2.1 概述
　　一般来讲，实现计算机语音输出有两种方法：一是录音/重放,二是文-语转换。若采用第一种方法，首先要把模拟语音信号转换成数字序列，编码后，暂存于存储设备中(录音)，需要时，再经解码，重建声音信号(重放)，如上节所示。录音/重放可获得高音质声音，并能保留特定人或乐器的音色。但所需的存储容量随发音时间线性增长。
　　第二种方法是基于声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。本节先介绍语音合成，下节介绍音乐合成。文-语转换是语音合成技术的延伸，它能把计算机内的文体转换成连续自然的语声流。若采用这种方法输出语音，应预先建立语音参数数据库、发音规则库等。需要输出语音时，系统按需求先合成语音单元，再按语音学规则或语言学规则，连接成自然的语流。文-语转换的参数库不随发音时间增长而加大；但规则库却随语音质量的要求而增大。目前，世界上已研制出汉、英、日、法、德等语种的文-语转换系统，并在许多领域得到了广泛应用。语音合成涉及到多方面的相关技术。计算机话语输出按其实现的功能来分，可以分为三个档次：
　　·有限词汇的计算机语音输出。
　　这是最简单的计算机语音输出，适合于特定场合的要求。它可以采用录音/重放技术，或针对有限词汇采用某种合成技术，对语言理解没有要求。可用于语音报时、汽车报站等。
　　·基于语音合成技术的文字－语音转换 (TTS)
　　进行由书面语言到语音的转换。它对书面语进行处理，将其转换为流利的，可理解的语音信号。这是目前计算机言语输出的主要研究阶段。它并不只是由正文到语音信号的简单映射，它还包括了对书面语言的理解，以及对语音的韵律处理。
　　实现计算机语音输出的方法
　　实现计算机语音输出有两种方法：
　　一是录音/重放，二是文-语转换。
　　若采用第一种方法，首先要把模拟语音信号转换成数字序列，编码后，暂存于存储设备中(录音)，需要时，再经解码，重建声音信号(重放)，如上节所示。录音/重放可获得高音质声音，并能保留特定人或乐器的音色。但所需的存储容量随发音时间线性增长。
　　第二种方法是基于声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。
　　文-语转换是语音合成技术的延伸，它能把计算机内的文体转换成连续自然的语声流。若采用这种方法输出语音，应预先建立语音参数数据库、发音规则库等。需要输出语音时，系统按需求先合成语音单元，再按语音学规则或语言学规则，连接成自然的语流。
　　自1976年应用调频(FM)音乐合成技术以来，其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术－－波形表(Wavetable)合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。
　　计算机语音输出按其实现的功能，可分为以下两个档次：
　　（1）有限词汇的计算机语音输出
　　这是最简单的计算机语音输出，适合于特定场合的要求。它可以采用录音/重放技术，或针对有限词汇采用某种合成技术，对语言理解没有要求。可用于语音报时、汽车报站等。
　　（2）基于语音合成技术的文字－-语音转换 (TTS)
　　进行由书面语言到语音的转换。它对书面语进行处理，将其转换为流利的，可理解的语音信号。这是目前计算机言语输出的主要研究阶段。它并不只是由正文到语音信号的简单映射，它还包括了对书面语言的理解，以及对语音的韵律处理。
　　3.4.2.2 合成方法
　　从合成采用的技术讲可分为发音参数合成、声道模型参数合成和波形编辑合成；从合成策略上讲可分为频谱逼近和波形逼近。
　　（1）发音器官参数语音合成：这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的相关参数。如唇开口度、舌高度、舌位置、声带张力等。由这些发音参数估计声道截面积函数，进而计算声波。但由于人发音生理过程的复杂性，理论计算与物理模拟之间的差异，合成语音的质量暂时还不理想。
　　（2）声道模型参数语音合成：这种方法基于声道截面积函数或声道谐振特性合成语音，如共振峰合成器、LPC合成器。国内外也有不少采用这种技术的语音合成系统。这类合成品在的比特率低，音质适中。为改善音质，发展了混合编码技术，主要手段是改善激励，如码本激励、多脉冲激励、长时预测规则码激励等，这样，比特率有所增大，同时音质得到提高。作为压缩编码算法，参数合成广泛用于通信、系统和多媒体应系统中。
　　（3）波形编辑语音合成技术：80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法，在PSO-LA(Pitch Synchronous Overlap Add)方法的推动下，此技术得到很大的发展与广泛的应用。
　　波形编辑语音合成技术是直接把语音波形数据库中的波形相互拼接在一起，输出连续语流。这种语音合成技术用原始语音波形替代参数，而且这些语音波形取自自然语音的词或句子，它隐含了声调、重音、发音速度的细微特性，合成的语音清晰自然。其质量普遍高于参数合成。
　　PSOLA就是基音同步叠加。它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施：对原始波形进行分析，产生非参数的中间表示；对中间表示进行修改；将修改过的中间表示重新合成为语音信号，由于修改的参数不同，又分为TD-PSOLA、FD-PSOLA和LP-PSOLA。
这种语音波形编辑技术多用于文-语转换系统中，现已有英、日、德、法、汉语等多种语言的系统问市。采用这种技术应解决好以下几个问题：语音基元的选取、波形拼接过程中的平滑滤波；韵律修改以及语言学的分析和处理。
　　3.4.2.3 语音基元数据库的构建。
　　任何一个计算机言语输出系统都有语音数据库，用于存储语音基元, 但是其形式不尽相同，这和言语输出的实现方式有关。
　　构建语音基元数据库重点要考虑两个问题：基元的选择和存储形式。
　　基元的选择有多种方案，目前常用的有次音素、音素、音节、词汇、双音素、三音素等。基元选得大，容易获得较好的音质。基元选得小，数据量小，拼接灵活，但韵律修饰规则复杂。
　　对于音节特征明显的语言，人们乐于选择音节作为合成基元。这时基元的采集和分割较为简单。注意用音节拼成词或语句时，需要考虑音联现象，进行韵律修饰。
　　选择双音素(diphone)和三音素(triphone)作为合成基元充分考虑了音之间的过渡和相互影响。通过存储多种上下文中的基元，然后在合成中选择适当的基元进行拼接，可以达到较高的自然度。
　　语音数据的存储形式可分为两大类：波形存储和参数存储，这取决于合成算法。为减少数据量，一般要对语音数据进行压缩。
　　波形存储方式存储的是数字化的语音波形数据。这些数据一般都经过编码，常用的编码方式有PCM，ADPCM 等。波形存储方式的主要优点是编码和解码算法简单，易于实时实现，缺点是数据量大。
　　参数存储方式存储的是从语音信号中提取的参数，常用的有LPC参数，LSP(LSF), 共振峰参数等。参数存储方式的主要优缺点恰好和波形方式相反，其主要优点是数据量小，易于实现韵律修改，但有限的参数很难表述自然语音的细微变化。
　　语音信号数据库的构建方式是言语输出系统的一个基本问题，它依赖于整个系统的实现方式和处理方法。
　　3.4.2.4 韵律模拟
　　目前，影响计算机言语输出系统质量的关键问题是对自然语流中韵律的模拟问题。在自然语流中，人们使用语调，节奏和重音等方式来表达说话者的语义和感情，这些韵律特征是自然语流的重要组成部分。而语音数据库中不可能把反映韵律变化的基元都选存进去，言语输出系统要想取得高质量，必须具备韵律合成的功能。
　　语调，节奏和重音这些韵律特征是通过超音段特征-音高，音长, 音强及频率分布的变化而表现出来的。因此，这些超音段特征的修改成为了韵律合成的基础。
　　目前，在超音段特征的修改可通过各种方法实现，如修改基频模式，共振峰模式等。近年来出现的PSOLA算法由于可以方便地修改超音段特征而获得了广泛的应用，并且赋予了波形合成方法强盛的生命力。
　　要实现韵律模拟，需解决韵律规则、韵律规则、韵律描述、计算模型和修改算法等问题。这要借助于语音学、语言学、心理学、信号处理等学科的成果。首先要研究韵律变化的特点，抽取韵律规则，找出韵律与声学参数的映射关系，给出定量的数学描述，建立可计算模型。最后还要设计韵律修改算法。
　　遗憾的是，目前对自然语流中韵律现象的研究还远未达到建立可计算韵律模型的要求。目前的研究成果大都是定性的，并且比较零乱。为了建立可计算韵律模型，需要在现有成果的基础上进一步进行研究.
　　3.4.2.5 语言理解与语音生成的结合。
　　人在说话时都清楚自己所要表达的意思，而且会使用多种语音手段来体现自己的意思和感情。计算机言语输出系统既要达到高自然度，又要有表现力，就要对所要合成的语言有较好的理解。因此，必须针对言语合成的需求开展自然语言理解的研究。
　　3.4.2.6输出言语的自然度评价。
　　对一个计算机言语输出系统而言，输出言语的自然度是最重要的质量指标。到目前为止，对言语输出系统的自然度的评价主要是通过主观评估作出的. 虽然对语音可懂度、清晰度评测有较成功的经验，但对合成语音自然度还缺乏评价标准。这给言语输出系统的评价和改进都带来了不便。因此，有必要对自然语流进行分析，发现构成自然度的客观因素和规律，用以指导提高输出言语自然度的研究。