基于自适应和MCE的说话人识别模型训练技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cchomonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术因其自身独特的方便性、经济性、准确性和可扩展性等优点,在生物特征识别领域中具有广阔的应用前景。尽管在实验室环境下,说话人识别系统已经取得了比较令人满意的效果,但是现实中的各种外界因素使得系统性能明显下降。为了提高系统实用化程度,还需要解决很多问题,其中一个显著的问题就是如何在训练数据不足的情况下提高系统的性能。针对训练数据不足的特点,本文在对说话人建模时采用的是高斯混合模型—通用背景模型(Gaussian Markov Model-Uniform Background Model, GMM-UBM),主要从说话人识别模型的自适应方法和参数估计方法两个方面,研究如何提高说话人识别系统的识别率。在说话人识别模型自适应方面,改进传统的用最大后验概率MAP (Maximum A Posterior Probability)得到说话人模型的方法,将语音识别中的最大似然线性回归MLLR (Maximum Likelihood Linear Regression)和基于特征音(EigenVoice, EV)的自适应方法,应用到说话人识别模型自适应当中,并将其与MAP方法进行比较;针对MAP和MLLR各自的优缺点,将其结合为综合渐进的自适应方法。在参数估计方面,考虑到常用的基于最大似然ML(Maximum Likelihood)准则的算法有一定局限性,它不能有效地刻画说话人之间的差异。针对这一不足,可以引入近年来语音识别算法中基于最小分类错误MCE(Minimum Classification Error)的训练方法,它以最小分类错误为目标进行区分性训练。采用MCE方法有助于提高说话人识别系统的性能。实验结果表明,针对不同训练语料的数量,首先应用合适的自适应方法进行说话人识别模型的自适应,再利用基于MCE的参数训练方法对系统改进,这样系统的识别率会有显著的提高,得到测试的最好识别率为91.2%。
其他文献
随着Internet技术的发展,加强实验环境的建设,利用模拟(Simulation)技术辅助解决网络的鲁棒性、可维护性和传输可靠性等问题是当前研究的一个热点。网络模拟是进行计算机网络
随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们拥有和积累的数据越来越多。数据挖掘在最近几年里已被数据库界广泛研究和应用,而关联规则的挖掘在其中占有很重要
目前,交通安全问题成为世界性的广泛话题,根据统计,大约有40%的交通安全问题来自疲劳驾驶。研究驾驶员疲劳监测方法,用以预防交通事故的发生,具有非常重要的现实意义。  本文在对
随着互联网Internet的飞速发展,网络上的信息呈指数增长。如何能够更有效、更准确地找到自己感兴趣的内容,关系到我们能否充分利用这个巨大的信息资源,这已成为基于Internet
在信息技术日新月异的今天,多数人在日常工作学习中都会接触到大量的中文信息,尤其是在互联网上,存在的中文网页更是数以万计。如何利用计算机技术快速有效的获取相关信息已
随着互联网和相关技术的飞速发展,网络的应用日益广泛,网络业务量也随之激增。在这样的情况下TCP的固有缺陷表现的愈发明显,SCTP具有下一代互连网多宿多流等相关特性,因此SCT
近年来PET作为核医学成像领域重要的临床检查影像技术已得到广泛应用,成为脑神经系统疾病检查的重要手段。PET脑影像多模配准技术通过在脑影像与标准图谱之间建立匹配关系,使
随着网络信息的爆炸性增长,如何在浩瀚的网络信息资源里查询出自己想要的信息变得越来越重要。现有的通用搜索引擎在一定程度上满足了用户的需求,但是它们完全忽视了用户的兴
“云计算”被Google、Amazon的公司提出之后,得到了工业界、学术界的广泛关注。近年来,云计算技术在工业界、学术界联合推动下获得了巨大的发展,大量的云计算系统被投入使用,