口语是最自然最有效的交际方式,让说话替代键盘输入汉字是计算机使用者的愿望。这个愿望正在变成现实。其技术基础是语音识别和理解。语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制、做出回答。语音识别的研究已有几十年的历史。据预测,带有语音功能的计算机将很快成为大众化产品,语音识别将可能取代键盘和鼠标成为计算机的主要输入手段,使用户界面产生一次飞跃,所以语音识别所具有的商业前景是不可估量的。 语音识别的研究领域比较广,归纳起来,一般有以下四个方面: ① 按可识别的词汇量多少,语音识别系统可分为小、中、大词汇量三种。一般来说,能识别词汇小于100的,称为小词表语言识别;大于100的称为中词表语音识别;大于1000的称为大词表语音识别。词表越大,困难越多。 ② 按照语音的输入方式,语音识别的研究集中于对孤立词、连接词和连续语音的识别。 词表中的每个条目,无论是单音节还是短语,发音时都是以条目为单位的,条目间有明显的停顿,而条目内的音节要求连续,这就是孤立词语音识别,如识别0~9十个数字、人名、地名、控制命令、英语单词、汉语音节或短语。 对连呼词表中的几个条目,识别时进行切分,最后给出连呼词的识别结果,这种识别需要用到词与词之间的联接信息,所以称为连接词识别。如连呼数字串的识别。 自然语言的特点是使用连续自然的语音。语音识别的目标是让计算机能理解自然语言,这是语音识别中最困难的课题,如听写机、翻译机、智能计算机中人机语音对话都需要连续语音识别。 ③ 按发音人可分为特定人、限定人和非特定人语音识别三种。对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练,具体方法是由特定人口呼待识词或指定字表,系统建立相应的特征库,之后,特定人即可口呼待识词由系统识别,这样的系统只能识别训练者的声音;如果需要限定的几个人使用同一系统,则可以研制成限定人识别系统;如果一个系统不必经使用者训练就可以识别各种发音者的语音,则称为非特定人语言识别。 语音识别研究的最终目标是要实现大同汇量、非特定人连续语音的识别,这样的系统才有可能完全听懂并理解人类的自然语言。 ④ 对说话人的声文进行识别:称之为说话人识别。这是研究如何根据语音来辨别说话人的身份、确定说话人的姓名。 |