语音识别中的说话人自适应研究

来源 :北京邮电大学 | 被引量 : 18次 | 上传用户:yumeng88888888888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天,各种高效、快捷的算法使得建立实时的连续语音识别系统成为可能,但是在实际应用中由于说话人的改变会使得系统性能下降。说话人自适应技术利用少量的自适应数据来提高系统性能,能够较好的解决这这种声学差异问题。本文将基于大词汇量连续语音识别平台,围绕说话人自适应技术展开研究,具体工作和创新包括以下几个方面:1.MAP和MLLR算法比较文章在讨论由说话人引起的声学差异基础上,研究两种基于模型的自适应算法:最大似然线性回归(MLLR)和最大后验概率(MAP)。实验结果表明,不论采用哪种自适应都能使识别率有一定的提升。两种算法之间的差异性在于MAP具有良好的渐进性,但收敛性较差,而MLLR在很大程度上改善了收敛特性,但其渐进特性却不如MAP。文章讨论了在MAP自适应中,初始模型参数的先验知识对自适应效果的影响,以及在MLLR中,回归类对自适应效果的影响。文章还进一步研究了采用两种算法的累加自适应效果,从结果看MAP和MLLR结合的方法比单独使用MAP和MLLR的效果要好。文章还对包括基于特征层的归一化算法和用于基于声学模型的MLLR算法等效性进行讨论,并给出了统一的算法框架。2.改进的基于聚类的说话人自适应算法文章提出以模型间加权交叉似然比为距离测度的说话人聚类自适应算法框架。在识别过程中,寻找训练说话人和测试说话人的相关性,充分利用可以提供的自适应语料和训练语料,是提高说话人自适应性能的有效手段。本文中,利用高斯混合模型来表征说话人,并通过说话人聚类来减少参考模型数量,实现粗分类。以此为基础,根据测试说话人的声学特征对参考说话人进行选择,从而实现快速说话人自适应。同时,文章还采用了统一的背景模型来作为各说话人模型的基线系统以增加模型间的耦合度。在目标说话人模型生成阶段,本文利用模型训练过程中产生的声学统计量,快速得到所需的模型参数。实验结果表明,利用说话人聚类技术进行参考说话人粗分类后,识别率比基线系统有较大提高。而且,粗分类精识别的手段表现在不同模型混合度上,都取得了较好的性能。3.参考说话人的动态选择技术及其改进文章在对参考说话人选择技术进行分析的基础上提出了基于支撑向量机的动态参考说话人选择技术(Speaker Support VectorSelection,SSVS)。参考说话人数量及其数据是否足够描述所有参考说话人的分布是取得好的自适应效果的关键。支撑向量机具有自动寻找那些对分类有较好区分能力的支撑向量的能力,因此本文提出将参考说话人视作支撑向量,结合支撑向量机训练过程进行参考说话人选择,以满足最优化和动态的要求。SSVS将参考说话人的选择由手动变为自动,同时满足声学模型完整性和声学近似性的要求。实验证明,这种方法能够取得较好的自适应效果。在此基础上,文章对SSVS进行改进,通过直接选取代表参考说话人的支撑向量来完成参考说话人选择(Reference Support SpeakerSelection,RSSS)。动态参考说话人选择的实现关键在于寻找代表参考说话人的支撑向量。本文借助SVM中的核函数来计算高维特征空间中两个样本间的距离,遍历训练样本集后得到最优分类面附近的样本集,其中各样本即为所需要的参考说话人支撑向量,同时,文章利用置信度来约束支撑向量选择过程。实验数据表明基于RSSS的说话人选择能有效提高系统性能。
其他文献
由于地表山峦重叠、赤道丛林和巨厚喀斯特化的中新统灰岩,使得在巴布亚褶皱带进行油气勘探非常困难。对于地表或近地表的高速喀斯特化灰岩,常使得地震技术对地下成像无能为力
本文研究了在通信、雷达、声纳、语音、生物医药工程等领域中有着广泛及重要应用的多分量信号的多个重叠信号分量的分离技术。文中基于不同的分析方法,建立了不同形式的信号模
随着科技的进步、市场的开放化、信息的共享化、产品的同质化,品牌定位的重要性也就显现得越来越重要。本文以红罐王老吉为典型案例来深入探索品牌定位的重要性,以期为我国企
布达特群潜山地层形成时代老,后期又遭受严重的构造改造,致使地层产状混乱,构造裂缝破碎严重,油气分布复杂多样,通过单井分析破碎带与单井产能的关系,更好地寻找油与破碎带的
提高雷达对机动目标的探测和跟踪能力是当前雷达技术领域所面临的前沿课题和紧迫任务。论文以弹道导弹防御为主要背景,利用时频分析方法进行加速运动目标的检测及加速度参数
元代,无论帝、王、将、相,不讳营商,不忌为贾。由此,参与商贸活动的人,分布极其广泛,遍及社会各个阶层。而元代以商贾为主要职业的人,按其拥有的资产划分,大致可分为三类:一是
[摘要] 企业慈善捐赠的社会责任已经成为西方理论界和企业界的普遍共识,在我国,理论界也普遍认为企业有慈善捐赠的社会责任,这种观点也逐渐被越来越多的企业所认可。那么,我国企业社会责任的慈善捐赠逻辑是什么?文章从文化渊源、西方影响和现实需要三个方面作了分析。  [关键词] 企业社会责任 慈善捐赠 传统文化 商业伦理    企业社会责任理论虽未形成一个被广泛接受的定义,但大部分学者认为企业不能仅以利润最
随着社会信息化的不断发展和商业竞争的需求,利用网络获取最新信息,在网上进行交易、宣传、娱乐、医疗、教育等的用户数量大幅增加。业务量和数据流量持续快速增长,互联网对带宽
<正> 记得几年前,《新民晚报》体育版刊登过一条标题新闻——“马俊仁——新闻学博士”。当然,这绝非是说我国著名的田径教练马俊仁真的获得了新闻学博士学位,而是感叹马俊仁
合成孔径雷达(SAR)是一种机载或星载微波成像雷达,具有全天候、全天时、高分辨率、作用距离远等优点,因而在军用、民用上都被广泛应用。SAR天线是决定合成孔径雷达系统性能的最