语音识别的鲁棒性和自适应方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:javaauto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于语音识别系统应用环境的复杂性,各种干扰因素往往导致语音识别系统的性能急剧地下降,因此,如何提高语音识别系统对各种干扰因素的鲁棒性和自适应能力,就成为语音识别技术走向实用化的关键问题。  针对语音识别系统中存在着环境差异和环境噪音的问题,在MAP(Maximum a Posterior,最大后验估计)和MLLR(Maximum Likelihood Linear Regression,最大似然线性回归)两种说话人自适应方法的基础上,采用了一种新的渐进使用自适应数据的策略,给出了一种快速综合渐进语音识别自适应方法。实验结果表明,快速综合渐进语音识别自适应方法即使在自适应数据比较少的情况下也可以取得较好的语音识别效果,在一定程度上克服了说话人差异和环境差异对语音识别系统的影响,在无噪音和有噪音的渐进自适应情况下分别可以降低识别字错误率23.03%和29.69%。  给出了用说话人聚类方法为自适应提供一个更好的初始声学模型的说话人自适应方法。该方法以模型自适应技术为核心,采用说话人聚类技术减小训练集的特征分布离散度和基元间混迭度,利用自适应数据为自适应过程选择最适当的初始声学模型,可以极大程度地提高SI(Speaker Independent,非特定人)语音识别系统的性能。  针对传统的VTLN(Vocal Tract Length Normalization,声道长度归一化)方法用单一声道因子来描述说话人差异导致频谱弯折函数无法将不同的共振峰同时对齐的问题,提出了用更为细致的频谱弯折函数来完成频谱归一化方法,即基于分段线性弯折函数的频谱归一化方法。在适当的频谱分段下,该方法较好地完成了频谱对齐的任务。传统的声道长度归一化方法可以看作该方法在分段数为2时的特例。由于利用了与模型无关的频谱弯折函数,该方法被证明是一种适用于无监督模式的说话人自适应方法,具有很高的鲁棒性。  在基于统计模型化说话人归一化训练方法、CMN(Cepstral Mean Normalization,倒谱均值归一化)方法和说话人自适应训练方法分析基础上,提出了与状态相关的直接均值移动归一化训练方法,并将之与模型自适应方法结合,得到基于MAP估计的直接均值移动归一化训练和MAP/WNR(Weighted Neighbor Regression,加权近邻回归)模型自适应结合方法。实验结果表明,直接均值移动归一化训练方法是一种较好的有监督模式下的鲁棒性方法。
其他文献
由于无线局域网(WLAN:Wireless Local Area Network)与有线网络相比具备移动性好、组网方便、运营成本低和投资回报率高等优势,加上近年来在覆盖范围、功率、带宽上取得了技术
该文主要以概率统计理论和遗传算法理论为依据,对实现DMIoDS中多媒体存储服务器的可伸缩性结构及其所涉及的接纳控制机制、条纹化技术和负载平衡策略等关键技术作了系统、深
该文完成了某省某市银行"天地对接"系统的设计与实现.论述了"天地对接"系统的工程总体目标、系统设计目标及工程实施意义,分析了该省该市业务发展现状及"天地对接"业务量,并
该文首先综合论述了与该课题密切相关的多个学科领域的发展现状,包括一维数字信号处理、语音信号数字处理以及人工智能等学科.在此基础上详细地讨论了课题开发过程中遇到的诸
该文主要致力于分布式对象计算的研究与探讨.首先讨论了分布式对象计算的概念、特性及优点,并对两种重要的分布式对象模型ActiveX/DCOM与OMA/CORBA进行了比较.Internet正渗透
随着数据库技术、网络技术的迅速发展,人们在各个领域都积累了大量的信息。如何快速、准确地从杂乱无章的海量数据中挖掘潜在的有利用价值的信息,如何理解和解释已有的历史数据
目前,智能主体技术(Intelligent Agent)已经逐渐成为计算机领域中一个崭新的研究课题.而用机器学习的方法来实现Agent智能是一种比较理想的途径.该文研究了一种应用于WWW上
如何提供网格授权和访问控制解决方案以适应网格虚拟组织的自治性、动态性,是网格安全研究领域所面临的关键挑战。网格授权和访问控制包含了如下方面的问题,即自治前提下虚拟组
该文研究了如何利用现有设备EMAGE的近场测试结果预测PCB远场的辐射发射情况,在详细分析国内外现有技术的基础上,提出了利用等效原理求解PCB远场场强的方法.在这个方法中,将
论文首先从统计搜索的角度分析了遗传算法图式采样过程,在简化模型的基础上提出了图式采样过程的扩散模型.扩散模型的主要结果是图式进化的成功率模型.图式成功率模型解释了