大词汇量连续语音识别的性能优化研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wzjjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)是语音识别研究的重点和难点之一,其涉及了声学模型、语言模型、搜索算法等多方面的知识和技术;本文在介绍语音识别的基本原理基础上,就如何提高LVCSR的识别速度以及识别准确率两方面进行了研究和探讨。在基于HMM的LVCSR系统中其声学建模常用连续密度HMM来实现,每个HMM状态都表示为一个高斯混合模型(GMM),而每个GMM模型又包含较多的高斯分量,这使得状态似然率的计算量非常大,是语音识别速度慢的主要原因之一,因此有必要设计有效的似然率快速算法在不降低或不明显降低识别准确率的前提下加快似然率的计算。本文首先分析了HMM中的似然率计算,并分析了采用并行方式实现似然率计算的可行性,在此基础上提出了一种基于SIMD的似然率并行计算算法,并利用HTK3.4工具包作为实验基线系统、TIMIT和WSJO语料库作为实验语料库搭建实验平台,将此算法与部分距离消去算法(PDE)、最佳混合分量预测算法(BMP)、特征矢量重排算法(FCR)以及高斯选择算法(GS)等其他经典快速似然率算法进行比较;实验结果表明,该算法在不降低识别准确率的前提下显著降低似然率计算开销,并且性能优于其他几种似然率快速算法。为了将语义信息与N-gram统计语言模型结合并运用到语音识别过程中以提高LVCSR系统的识别准确率,本文研究了潜在语义分析(LSA)理论及其在LVCSR系统中应用的相关技术,在此基础上利用WSJO文本语料库构建LSA模型,并将其与N-gram模型进行插值组合,构建了包含语义信息的混合模型;同时为了优化混合模型的性能,利用基于密度函数初始化类中心的K均值聚类技术对LSA模型的向量空间进行聚类,并提出平滑计算方法对概率进行平滑。WSJO语料库上的模型困惑度实验和连续语音识别实验结果表明:混合模型性能优于N-gram,LSA能在一定程度上辅助N-gram提高LVCSR的识别率。
其他文献
森林资源的经营是林业发展的重要条件,合理的经营管理是提高森林资源质量,森林资源总量,满足国家和人民对林业多样化需求的重要措施。因为林木生长是个长期的过程,所以林业经
互联网的日益普及以及各种互联网技术的快速发展使得网络安全问题成为现今网络所要面临的一大难题。网络中的入侵行为主要是入侵者试图危害资源的完整性、保密性和可用性的活
课表安排问题实质上就是要求将学校开设的所有课程,在满足一定的约束条件下,合理地安排到有限的课时和教室资源上。课表安排工作是教学活动中必不可少的一个重要环节,对提高
无线传感器网络由许多具有无线通信能力的低成本、密集部署的传感器节点组成,由于无线传感器网络具有组网快捷、灵活,且不受有线网络约束的优点,可广泛用于紧急搜索、灾难救助、
语音通信已经成为现代社会生活的重要组成部分,然而人们在语音通信过程中不可避免地会受到来自周围环境的、传输媒介引入的、通信设备内部的噪声、乃至其它讲话者的干扰,这些干
工作流管理系统是实现工作流自动化执行和流程定义的平台,它实现了业务逻辑与执行活动的分离,支持业务流程的分析和规范化定义以及业务单元的灵活组装。工作流技术可以降低复杂
本文是针对计算机辅助几何设计与制造(CAGD/CAM)中的曲线曲面造型问题,运用一种基于曲线融合的思想所进行的基础理论和应用的全面总结。其内容包括:基于融合的样条曲线造型方
遗传算法是一种十分优秀的解搜索算法。它有着天生的并行特性,因而并行遗传算法通常被设计应用于计算量大的理论计算和工程设计等诸多方面。但并行程序设计向来都较为复杂,并
随着云计算技术的发展和对云计算技术应用的不断增长,云计算系统的规模也随之增长,从而造成了云计算系统分布于多个数据中心的情况。云存储子系统是云计算系统的重要组成部分
学位