论文部分内容阅读
语音识别技术,主要是通过计算机语音处理技术,实现一种人机界面,为人与人和人与计算机之间的顺畅交流提供一种便捷的方式。自语音识别技术发展以来,已经取得了一定的研究成果,国内外诸多大公司也加大了对大词汇量中文语音识别技术的开发和研究。在语音识别技术中,解码器是最为关键的部分。近年来,有限状态转换器被广泛应用于语音识别技术中。由于有限状态转换器不仅可以使用于模拟讯号模型,更可以进一步模拟自然语言中许多重要且繁复的文法结构与文法特性。因此,有限状态转换器成为语音研究有力的工具。本文主要讨论带权有限状态转换器在大词汇量中文语音识别系统中的应用。它的基本思想是,将声学模型、发音词典、语言模型分别用一个加权有限状态转换器来表示。然后通过组合演算法将其整合为一个完整的加权有限状态转换器模型,从而可以得到一个同一维度的语音识别搜索空间。本论文可分为四个部分:第一个部分是带权有限状态机相关的基本概念和理论推导;第二部分讨论如何将传统语音识别中所使用的声学模型、发音词典和语音模型分别建立成有限状态转换器形式,以及介绍合并演算法,用来减少各有限状态转换器的状态数和转移数;第三部分讨论如何以组合算法将各带权有限状态转换器整合成为一个搜索空间,以及优化问题;第四部分,设计并实现解码器,在给出测试语料的基础上进行试验。最后,将实验结果与传统的基于HTK工具的识别结果,分别在识别率和解码速度两个方面进行比较,得出结论。证明基于加权有限状态转换器的识别系统的正确性及优越性。