【摘 要】
:
人类和机器进行语音交流,让机器听懂人类的语音,一直是人类长久以来的梦想。随着深度学习技术的应用,语音识别声学模型建模方式发生了巨大的变化。但相关的研究主要集中在英语和汉语普通话这样的数据资源充足的语言中,对于藏语这样的资源稀缺的语言研究较少。本研究首先建立TDNN-HMM藏语拉萨话语音识别基线系统,针对藏语拉萨话数据资源稀缺的问题,研究使用半正交因式分解TDNN-HMM声学模型对藏语拉萨话语音数据
论文部分内容阅读
人类和机器进行语音交流,让机器听懂人类的语音,一直是人类长久以来的梦想。随着深度学习技术的应用,语音识别声学模型建模方式发生了巨大的变化。但相关的研究主要集中在英语和汉语普通话这样的数据资源充足的语言中,对于藏语这样的资源稀缺的语言研究较少。本研究首先建立TDNN-HMM藏语拉萨话语音识别基线系统,针对藏语拉萨话数据资源稀缺的问题,研究使用半正交因式分解TDNN-HMM声学模型对藏语拉萨话语音数据进行声学建模,提升复杂模型对于小数据集的建模能力。针对传统区分性训练需要进行两遍训练的问题,研究使用Lattice-free MMI准则进行声学模型训练,相比传统交叉熵准则训练的基线,获得14.5%的性能提升,同时解码速度更快。在此基础上研究数据增强和说话人自适应方法,提高低资源环境下藏语拉萨话语音识别系统的鲁棒性,进一步获得8%的性能提升。最后本研究通过迁移学习中的权重迁移方法,进行声学模型跨语言权重迁移,将汉语普通话半正交因式分解TDNN模型的隐层权重矩阵参数迁移到藏语拉萨话半正交因式分解TDNN模型中,研究隐层数量对迁移的影响,在之前实验基础上获得4.2%的性能提升,从而证明汉语普通话到藏语拉萨话的迁移是有效的。
其他文献
研究背景:重症肌无力(myasthenia gravis,MG)是一种获得性自身免疫性疾病,其致病性抗体与神经肌肉接头处(neuromuscularjunction,NMJ)突触后肌肉终板膜上的乙酰胆碱受体(acet
综合材料艺术里的纤维艺术即是材料的艺术,蚕丝艺术即是综合材料艺术中的一部分。蚕丝织物与人类的生活息息相关,是一个富于创造的广泛领域。本课题将蚕丝材料运用到综合材料
类风湿性关节炎(RA)是一种发病机制复杂,发病原因尚未明确的慢性自身免疫性疾病。该病以小关节的滑膜炎症为主,伴随全身性脏器损伤,甚至导致患者残疾,影响患者的生活质量和寿
目的:分析腹腔镜非网片阴道骶骨固定术与网片固定术式对盆腔器官脱垂(pelvic organ prolapse,POP)患者临床疗效的影响。方法:回顾性分析2017年1月至2019年4月于河北医科大学
目的:测定石杉亚科(Huperzioideae)植物中石杉碱甲、石杉碱乙含量,探寻石杉亚科植物可持续利用资源;探讨马尾杉属(Phlegmariurus)植物系统关系与遗传结构,分析马尾杉属植物遗
背景和目的2 型糖尿病(type 2 diabetes mellitus,T2DM)是心力衰竭(heart failure,HF)的主要危险因素之一,T2DM患者中射血分数中间值的心衰(heart failure with mid-range ej
第一部分FBXO32在口腔鳞癌组织中的表达及意义目的:研究FBXO32在口腔鳞癌组织中的表达,分析其与临床病理参数之间的关系,探讨FBXO32在口腔鳞癌进展中的作用。方法:通过应用qRT-PCR技术检测口腔鳞癌组织及对应癌旁正常黏膜中FBXO32基因的表达情况,应用配对t检验、卡方检验和连续校正卡方检验进行统计学分析,结果以P<0.05为差异有统计学意义。结果:1.在43例口腔鳞癌组织中,F
无线传感器网络(Wireless Sensor Networks,WSNs)作为物联网的主要组成部分,在诸多应用领域中扮演着重要角色,例如医疗、交通监测、环境监测等等。但WSNs的诸多固有特性,例如通信信道的公开性、传感器节点存储空间的有限性以及其无人值守等特性,使其易遭受多种安全攻击。密码学技术是WSNs抵御攻击的最有效技术手段,而其中认证协议又是最为常见的密码机制。分析近期四个此类协议中存在的
卒中,特别是缺血性脑卒中,是一种危害人类健康的重大疾病,具有很高的致死率。脑缺血再灌注(cerebral ischemic reperfusion,CIR)是缺血区血液供应恢复的过程,它会导致比单纯
波达方向(Direction-of-Arrival,DOA)估计技术是阵列信号处理领域研究的重点课题,在很多领域中占有重要地位,如雷达、声呐、医学以及通信等领域。DOA估计的研究对象从窄带信