其中:

是
p 维FFT频谱矢量;

是
d
维美化倒谱矢量。(
j=

)
设某说话人的倒谱矢量集

,高斯混合模型使用如下的概率密度函数描述倒谱矢量

的分布:

.
其中:

是d维倒谱矢量,
j=

;
M
是模型的阶,即高斯混合模型中单个高斯分布的个数;

是单个高斯分布的概率密度函数,其参数

包括均值矢量

及协方差矩阵

;

是第
i 个高斯分布的权重,满足

;

是高斯混合模型的参数,它包括

和

,
i=

。
给定集合
Z,使用高斯混合模型描述频谱矢量的分布,需确定模型参数

,使得在该参数下矢量集
Z发生概率

最大。A.Dempster和N.Laird给出了一种EM算法[4]求解参数

。本文给出该算法的一种简便推导。
设中矢量互相独立,有

.
设

对

可微,当

取极大值时满足:

.
解上式,即可得到估计

,

和

的迭代算法(i=

)。
以

为例:
令

,
于是得到

,将等式左侧的

改写为

,即得到估计

的估值

的迭代算法。
类似地,可以得到

和

的估值

和

的迭代算法:

;

;

.
判别规则:给定待辨识说话人X的倒谱向量集
Z和
c个候选说话人

的高斯混合模型参数

(k=

)。设

满足

,则X被辨识为说话人

。
设各候选说话人发生的概率相同,即对任意
k(
k=

)有

,据Bayes规则,上述判别式可改写为等价形式:

. 在中频谱矢量互相独立的假设下,可以对

取对数来简化运算。
在不同的

,

,M,

和

参数下,系统得到不同的辨识结果,其中:

是长时平均FFT频谱的判别阈值;

是语音的预加重系数;M是高斯混合模型的阶次;

是训练语音的长度;

是辨识语音的长度。
实验表明:
--由长时平均FFT频谱分析和高斯混合模型构成的复合辨识系统能够在较低系统开销下达到好的辨识效果。
--对于说话人辨识,较小的语音预加重系数(例如 =0.50)有较好的效果。
--当高斯混合模型的阶次增加,系统辨识正确率提高,但收敛速度降低。通过分析实验结果,M 取15左右比较合适。
--较长时间的训练和辨识语音有助于提高系统辨识正确率,但训练语音超过60秒,辨识语音超过10秒后辨识正确率提高很慢,因此更长的语音是不必要的。
3.8.3.4 话语系统
话语系统(Spoken Language System)主要由以下三部分组成:语音识别(Speech Recognition)、自然语言处理(NaturaI
Language PrOcessing)及人机接口技术(Hunian 1nterfaceTechnology)。它的功能是:先进行语音识别,然后自动翻译,最后给用户以相应回答。
话语系统使得人们可以同计算机讲话,它是用最方便、最自然的语音方式来存取和处理信息。它是人机交互的一次革命。这种接口将让用户使用计算机变得简单方便。采用语音输入,还可提高输入速度。这在一些情况下也十分重要,如:飞行员、外科医生、机床工人、电话用户及残疾用户等,他们可用声音来发出命令。
话语系统在过去的十年里,已有了突破性进展,并获得了一些应用。美国的MIT(麻省理工学院)和CMU (卡纳基梅隆大学)在语音研究方面处于领先地位,其中MIT对话语系统的研究取得了令人瞩目的研究成果。下面简要介绍MIT研制的几个话语系统:
① SUMMIT系统
该系统是一个基于分段的语音识别系统,它采用36维混合状态为64的高斯分布。最后生成的音素网络中,每个状态对应于一个音素,状态的观察值概密函数为高斯函数,每条边由一个所有候选项概率组成的向量描述。
该系统自从1989年推出以来,已经移植到7个领域及3种语言,在最近的ARPA AT1S评测中,它识别单词和句子的出错率分别为4.5%及23.3%。
② TINA系统
该系统是一个自然语言理解系统。它采用概率语法分析,自上而下,基于表的控制策略,使用最大似然分析方法。它的语法规则和相应概率可以从一个语法分析集中自动训练而成。
至今,TINA已经移植到9个领域及4种语言,在最近的ARPA AT1S评测中,它的语句理解出错率为12.5%。TINA与SUMMIT联合起来的话语理解出错率为4.2%。
③ VOYAGER系统
该系统是一个较初级的话语系统,它能与用户进行口头对话,提供关于美国麻省剑桥的地理环境。例如:关于距离、旅行时机、该地区中某建筑物的方位,以及其地址或电话号码等信息。
该系统自从1989年底推出以来,已经移植到3种语言(英、日、意大利),用户在对话中可以混合使用这三种语言。目前,系统使用较小的词汇量及有限的语法知识,就能理解约50%的用户口头提问。为了将该系统作为开发多语言话语系统的平台,专家们正在研究如何从用户的输入中提取出公共的、独立于语种的语义表示形式。
④ GENESIS系统
该系统是一个话语系统的语言产生系统,它既能记录用户的输入问题,又能以语音回答用户的问题。它使用最初由TINA系统建立的语义框架,从数据库中查询返回的信息又不断地增加到语义框架中。该系统由三个模块组成:字典、信息模板集及重写规则集。
它的设计目标为:适用于各个领域及各种语言。目前,它已经移植到4种语言(英、日、意大利、法)上,并且,正在进行德语、西班牙语及中文普通话的研究。
⑤ PEGASUS系统
该系统是连接到美国航空公司EAASY SABRE预订系统的话语接口。系统先从用户提问中提取到充分的信息,以产生一个EAASY SABRE查询语句,该查询一般返回一个格式化表格和菜单供用户选择。这样,系统就将用户的提问对应成适当的菜单项来处理了。
它始建于1993年,目前它已装有关于全球250个主要城市的信息,其识别系统的词汇量达2500词。它可以用自己产生的英语口语,来回答用户关于航线/费用等信息。
⑥ GALAXY系统
该系统是话语系统的一个新的尝试,它在许多方面不同于已有的话语系统。表现在:
·它采用分布式及分散式结构,使用客户机/服务器结构,以便将大量的计算过程(如进行大词汇表的语音识别)及知识密集的处理过程分散到各计算机上执行。
·它可以提供多个领域的、广泛的信息源及服务。并且用户不必知道数据库的详细地址及数据的存储格式。
·它是可扩充的,可以向系统中增加新领域的知识。
·该系统可以从用户处接收语音、键盘及鼠标指定的信息,其输出信息包括图形、文字及合成语音。
通过该系统的研究,可以揭示许多问题。如:"新词"的检测及识别。讲话及对话模型、规模性及可移植性、动态适应性及大词汇表语音识别。至今,GALAXY系统已经应用于3个领域;城市导游(G1TY
GU1DE)、航空咨询(AIR TRAVEL)、天气预报(WEATHER)。