Untitled Document

　　口语是最自然最有效的交际方式，让说话替代键盘输入汉字是计算机使用者的愿望。这个愿望正在变成现实。其技术基础是语音识别和理解。语音识别是将人发出的声音、字或短语转换成文字、符号，或给出响应，如执行控制、做出回答。语音识别的研究已有几十年的历史。据预测，带有语音功能的计算机将很快成为大众化产品，语音识别将可能取代键盘和鼠标成为计算机的主要输入手段，使用户界面产生一次飞跃，所以语音识别所具有的商业前景是不可估量的。

　　语音识别的研究领域比较广，归纳起来，一般有以下四个方面：　
　　① 按可识别的词汇量多少，语音识别系统可分为小、中、大词汇量三种。一般来说，能识别词汇小于100的，称为小词表语言识别；大于100的称为中词表语音识别；大于1000的称为大词表语音识别。词表越大，困难越多。
　　② 按照语音的输入方式，语音识别的研究集中于对孤立词、连接词和连续语音的识别。
　　词表中的每个条目，无论是单音节还是短语，发音时都是以条目为单位的，条目间有明显的停顿，而条目内的音节要求连续，这就是孤立词语音识别，如识别0～9十个数字、人名、地名、控制命令、英语单词、汉语音节或短语。
　　　对连呼词表中的几个条目，识别时进行切分，最后给出连呼词的识别结果，这种识别需要用到词与词之间的联接信息，所以称为连接词识别。如连呼数字串的识别。
　　自然语言的特点是使用连续自然的语音。语音识别的目标是让计算机能理解自然语言，这是语音识别中最困难的课题，如听写机、翻译机、智能计算机中人机语音对话都需要连续语音识别。
　　③ 按发音人可分为特定人、限定人和非特定人语音识别三种。对于特定人进行语音识别的系统，使用前需由特定人对系统进行训练，具体方法是由特定人口呼待识词或指定字表，系统建立相应的特征库，之后，特定人即可口呼待识词由系统识别，这样的系统只能识别训练者的声音；如果需要限定的几个人使用同一系统，则可以研制成限定人识别系统；如果一个系统不必经使用者训练就可以识别各种发音者的语音，则称为非特定人语言识别。
语音识别研究的最终目标是要实现大同汇量、非特定人连续语音的识别，这样的系统才有可能完全听懂并理解人类的自然语言。
　　④ 对说话人的声文进行识别：称之为说话人识别。这是研究如何根据语音来辨别说话人的身份、确定说话人的姓名。