针对说话人多变性的语音识别声学模型建模方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiaowangdoc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,虽然大词汇量非特定人连续语音识别系统的性能已有较大的提高,但与人类自身的语音识别的“性能”相比仍相距甚远。其主要难点在于语音数据受多种因素影响而存在多变性。其因素包括说话人生理特点,表达方式、语速、情感、口音及方言等,可分为不同说话人之间的以及同一说话人自身的,这里将其统称为说话人多变性。如何在声学建模中有效地解决语音中说话人多变性问题一直是语音识别领域研究的热点,且目前仍未得到很好解决。   本文通过对说话人多变性问题进行语音学分析并借鉴心理声学中对人的语音知觉机理的研究成果,提出了基于覆盖思想的解决思路,包括在建模时充分考虑各种多变性因素信息(或称“标引信息”),并在识别阶段有效地估计和利用上下文的“标引信息”以提高识别性能。   首先在现有混合训练模型基础上,提出了概率潜说话人建模方法,自动获取影响语音变化的若干潜在说话人类别或潜在因素。利用连续语流中各潜在因素的一致性关系,提出了在识别过程中引入潜说话人模型的一遍解码方法。不需任何自适应数据,而直接在一遍解码过程中同时估计潜说话人信息和语音内容信息,在改善识别性能的同时大大提高了其在实际应用中的解码效率。   针对原始模型中多变性因素的内在结构信息没有得到较好保留的问题,提出了概率潜说话人自适应训练框架。与传统的自适应训练方法相比,其不是直接将说话人看做不同的多变性源头,而是引入了一层隐变量以表示各潜说话人类别或潜在因素,而特定说话人的特定的语句是这些因素组合作用的结果。不同于传统的自适应训练的归一化效果,通过概率潜说话人自适应训练方法在维持原经验设定的模型复杂度基础上对混合训练的模型的参数进行调整,效果是使模型对声学空间的覆盖范围更广。因此,概率潜说话人自适应训练可进一步带来性能的提高。   针对目前实际系统中广泛应用的建立类别相关模型的方法存在的问题,提出了模型复杂度扩展的潜说话人建模方法。通过为各潜说话人估计均值参数得到多个类别相关模型,与传统的说话人聚类方法相比,其优势一是将硬性分类的过程变为软聚类的过程,说话人是以某一概率属于某一类的;二是能够捕获类别的局部结构信息。在识别阶段,我们提出利用一遍解码时得到的潜说话人的分布对各类别的声学模型进行融合,使得识别性能得到有效地提高。   通过扩展模型复杂度可以达到更好的覆盖,同时也难免引入模型参数的冗余。针对这一问题,提出新的自动模型选择算法在声学模型训练同时自动确定高斯混合数目。贝叶斯阴阳学习理论提供了新的机器学习的理论框架,与传统的模型选择准则相比,其优点是能够在学习模型参数的同时自动的确定模型复杂度。为了将其更好的应用于声学模型训练,提出并实现了在高斯分量层采用贝叶斯最大和谐准则下的新的批处理式算法,使其与现有隐马模型的Baum-welch训练算法框架有效地结合,形成一套自动确定声学模型中个状态混合高斯数目的训练算法。对各个潜说话人模型分别引入自动模型选择的重训练,训练后结果表明该算法能够有效地对高斯数进行裁剪,在提高模型对声学空间的覆盖程度的同时保持其紧密性,并最终提高语音识别的性能。   文中最后是讨论与展望。
其他文献
从2007年资本市场首次出现反向购买的案例以来,随着2008年资本市场的大幅调整,IPO暂停了将近8个月,期间掀起了反向购买的高潮,反向购买的交易形式也层出不穷,比如,有自然人将
随着卫星定位系统市场的不断扩大和定位技术的迅速发展,现有的导航系统日渐无法满足大幅增长的用户需求。而现在的GPS卫星接收机可能与GALILEO、北斗相结合,来提供性能更可靠的
地表的冻融状态监测与人类生活环境密切相关,地表冻融状态的变化强烈影响区域内地表的能量平衡和水分平衡。对区域内水热交换、气候变化、地表热力学特征等有巨大影响。传统监
摘要:初中阶段的化学可以说是一门基础性学科,在教学过程中要重视对学生化学兴趣的激发,要懂得怎样帮助学生牢固地、系统地掌握化学基础知识和基本技能,如何培养学生的智力,引导学生的提高化学能力,让学生逐渐形成正确的学习方法和习惯。本文笔者结合多年教学经验,对中学化学的教学方法进行以下分析,供同行教师参考。  关键词:中学化学;教学;学生  我国著名教育家卢嘉锡曾经说过:“化学发展到今天,已经成为人类认识
树突状细胞(DC)是人体内功能最强大的抗原递呈细胞,基于DC的肿瘤疫苗将有巨大的临床应用前景。肿瘤抗原的选择对于DC疫苗的效果至关重要。目前,凋亡肿瘤细胞作为一种全肿瘤抗原
Broadband Wireless Access (BWA) systems have gained a lot of attention in the industry for providing flexible and easy deployment solutions to high-speed wirele
人体运动捕捉技术有着广泛的应用前景,潜在的应用领域包括交互式游戏、虚拟现实、交互式学习、动画电影特效,以及健康监测和疾病复原等。当前的运动捕捉系统都是基于视频处理
学位
新型调制格式传输技术是当前光纤通信研究的热点。差分相移键控(DPSK)信号相比于传统开关键控信号(OOK)对于光信噪比(OSNR)的要求降低3 dB,可以提高对光纤色散和非线性容效应
随机多址接入控制协议采用用户终端随机竞争通道资源,控制灵活,且能保证小用户数有较高的传输效率,具有在一定条件下能够有效占用通道资源,减小转换时延的特点,因此在无线通
音频无损压缩近年来逐渐成为数字音频压缩领域的一个研究热点,在高保真音乐的存储、传输以及音频文件的归档、编辑等方面有着较为广泛的应用。本文在研究了现有的音频无损压缩