【摘 要】
:
说话人识别技术在计算机智能接口和人机交互方面有着重要的应用价值。其任务是用计算机分析说话人的语音,得到有关个人的特征,并由此识别出人的身份。目前在说话人识别中,常
论文部分内容阅读
说话人识别技术在计算机智能接口和人机交互方面有着重要的应用价值。其任务是用计算机分析说话人的语音,得到有关个人的特征,并由此识别出人的身份。目前在说话人识别中,常用的效果较好的特征参数有MFCC等,在纯净语音的情况下已经有了近乎完美的识别效果,但在有噪音的环境下性能却大幅度降低。本论文研究在噪音环境下的说话人识别方法,主要研究内容如下:(1)改进原有的判别分析方法,将线性判别分析加上稀疏性的约束,提出一种新的特征提取方法,并采用了梯度下降的优化方法得出相应算法。(2)张量有表达高阶信息的强大能力,能克服数据向量化表示后的缺陷。我们将上述稀疏约束判别分析方法推广到张量上,得到基于张量的稀疏判别分析方法,并同样采用梯度下降的优化方法得出相应的算法,用以提取说话人特征。(3)实现本文提出的两种算法,进行说话人识别实验,并与传统特征参数进行比较。实验结果表明,由于结合了线性判别分析的判别能力和稀疏特征的抗噪性能,本文提出的方法不仅在纯净语音的情况下有传统方法相当的性能,同时也有很好的鲁棒性,对于语音信号含有噪音的情况识别率大大提高。
其他文献
随着数字电视的快速发展以及一系列先进的音视频压缩标准的引入,基于多媒体技术的业务迅速走入人们的生活,如IPTV,网络电视等。因此,人们对音频和视频播放效果的关注程度也在
随着Internet和多媒体技术的飞速发展,实时传送视、音频媒体文件的技术成为了热点,同时用户也对视频传输和图像质量有了更高的要求。新一代的视频标准AVS即“数字音视频编解
近年来,随着群体智能[1][2]算法在数据处理分析问题上表现出来的巨大潜力,大批的研究人员投身于其中进行研究。但是这类的群体智能算法往往存在着调节参数过多,所得解不是最
根据锦州电厂动态成本核算与分析系统设计需求,结合发电企业内部信息系统工作协同以及业务集成度亟待改进的现状,本文研究了面向服务架构(SOA)在发电企业应用方案,提出了基于
传统的考试方式需要使用大量的人力物力来印刷、运输试题,效率低、费用高。随着互联网的蓬勃发展,利用计算机网络实现高效、低成本和形式多样的网络考试已成为现代教育的一种
计算密集、耗时长是现代天文数值模拟的主要特点。提高模拟计算的性能,减少计算资源的消耗,在精度和性能之间取得一个最佳的平衡点,一直是天文数值模拟软件设计的关键目标。同时
随着多媒体技术和网络技术的飞速发展和广泛应用,数字多媒体产品的存储、处理和传输变得越来越方便和快捷,多媒体的真实性认证和版权保护问题显得越来越重要。然而,因为多媒
传统的搜索引擎将网页和链接作为处理单位,对于用户的查询,按照网页与查询的重要程度排序返回给用户,但随着互联网中大量重复网页和作弊链接的存在,使得利用网页排序算法返回
在软件工程中,自然语言描述需求说明文档的做法应用广泛,典型的如使用UML建模工具。但是,自然语言的多义性、上下文有关性、非系统性等特点致使其在描述复杂系统时可能引起语
随着互联网的飞速发展,网络信息量不断增加,垃圾网页也逐渐增多,这极大影响搜索引擎的精度和效率,如何在海量信息中寻找到高质量的搜索结果,以满足用户需求变得越来越重要。