针对性别的说话人识别中语音特征性能的研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:chengyao54321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是一种利用说话者的声学特征来进行身份验证的技术,又称为声纹识别。我们知道,人类的声纹是独特的、简单易得的、并且非常稳定的,说话人识别技术利用人类声纹的特点,现在已经在日常社会生活中得到广泛的应用,例如在身份识别领域就被人们所看好。近些年来国内外对于声纹识别技术的应用领域已经日渐增多,例如在公安领域说话人识别系统,声纹识别亲情电话系统[1],声纹识别定位追踪系统,居民住宅、重要办公场合的声纹锁,网上交易身份验证等诸多方面的应用,但如今黑客或者现实中模拟盗版技术又十分普遍,这就十分迫切的需要声纹识别系统的准确性和稳定性的支撑,来提高身份识别的安全保障。在说话人识别领域的研究领域,其技术大概分别声音文本的采集,声音文本的预处理,语音特征的提取,声音文本的建模以及识别。在研究中,我们都迫切的寻找能让识别率达到更高的算法,随着人工智能技术的不断发展,利用深度学习的方法已然研究达到了一个新高度,再通过算法方向来提高识别效率难度太高,换而言之,对于识别算法的优化已经到了一个瓶颈期。对于高准确率的追求过程中,研究者们往往只看重算法好坏给系统带来的准确率的提高,却忽视在说话人提取过程中对语音文本建模这个方向对于提高系统性能也是有帮助的。我们通常利用的是对整体的说话人进行语音特征提取并建立特征模型,本文要提出一种细化建模的思想,当然细化建模的方式有很多种,例如分地域,分年龄,分性别。本文讨论的主要是对于说话人群按照性别区别,分别进行特征提取以及建立声学特征模型。使用了基于矢量量化的说话人识别方法和基于深度神经网络的说话人识别系统。对男女语音特征分别进行MFCC,LPCC,MFSC,双重MFCC等特征提取,探究语音特征分别适用的性别。通过实验结果进行分析和对比,结果表明在利用相同的识别系统的情况下,MFCC及其相关特征提取方式对于男声的表征能力优于对女声的表征能力,LPCC对于女声的表征能力优于对男声的表征能力;并且利用高纬度的识别模型进行实验时,MFSC的性能要高于MFCC。这就为今后对于提高说话人识别系统性能的研究方面提供了方向,即可以对男女说话人分开进行研究,分别探究适用于不同性别的算法或者模型,从根本上提高系统性能。
其他文献
近年来供热二次管网的平衡调控与节能逐渐成为供热企业关注的焦点。随着热计量器具的大量安装和海量数据的自动采集,供热企业积累了大量的供热末端数据。但是这些数据有着数
含有醌结构的化合物骨架在许多具有生物活性的天然产物和药物活性分子中广泛存在,尤其是2位取代的对醌结构,如维生素K系列化合物。因而,高效快速的制备此类化合物具有非常重要的研究意义。此类化合物的合成方法已经有了很多报道,虽然很多方法的反应产率较好,但是大多都需要贵重金属催化以及预先官能团的引入,化学经济性和原子经济性较差。因此,发展直接简单高效且廉价的方法来合成该类化合物仍是有机化学家们的兴趣所在。烯
大量矿山工程实践表明:工作面在过上覆集中煤柱时较容易发生压架事件,严重威胁了矿山企业的生命财产安全及工作面的正常生产。因此,若能采取有效的压架防治措施,使工作面安全地通过上覆集中煤柱区域,不仅能够保证工作面的高效生产,而且能够避免产生人员伤亡,减少企业经济损失,对矿山企业而言具有重要的意义。本文在此研究背景下,以石圪台煤矿为工程实例,采用相似模拟试验和数值模拟研究手段,结合石圪台煤矿31201工作
近几年来,新媒体快速发展,其引发的网络舆情危机也不断的凸显出来。这对我国政府监管部门来说无疑提出了新的挑战。我国目前已处于网络舆情高频爆发期,有效的进行网络舆情控
基站端配置大量天线的大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术是5G无线通讯实施方案的核心技术之一。结合了MIMO技术和正交频分复用(Orthogonal Frequ
Logistic分布(Logistic Distribution,LD)函数常用作增长曲线和二进制响应变量的建模.该分布的密度曲线具有位置、刻度参数,形状与正态分布形状相似,但是尾部更厚.为更好地描述数据分布的尾部形状,常引入两个形状参数,得到LD的推广形式:广义Logistic分布(Generalized Logistic Distribution,GLD).作为一种偏态分布,GLD具有可以在一
快速成型技术又称3D打印技术或增材制造技术,是这几年来广泛推广并得到飞速发展并充分应用的一种生产技术,控制系统是快速成型机的核心部分,控制系统水平高低对制造速度、精
多智能体系统在进行分布式协作控制任务时,首要目标是促使系统成员的指定状态值达成一致。Olfati-Saber提出离散时间一致性协议要求智能体在演化过程中与每一个邻居进行通信协作。然而,当大规模多智能体系统依据上述控制协议进行演化时,存在通信冗余与无效的邻域信息会限制系统的收敛一致的能力和系统收敛一致的速度。因此需要为一致性协议设计出合理有效的邻域成员选取策略减少不必要的通信。保持系统通信拓扑的连通
北京电力科学院电子资源管理系统是为解决科学院现存海量资源难以系统化管理的问题而研发的系统。通过本系统的研发实现了对北京电力科学院自身系统资源进行系统化、规范化管
纳米反应器是指多个分子以特定方式连接而形成的一类具有催化活性的人工模拟酶分子或分子组装体,因其可基于分子层次上对空腔的微环境及催化过程进行模拟再现,从而引起了广大研究者的注意。根据组装分子的数量和空间排列,可收敛自组装成有限的离散型单分子笼状纳米反应器,或发散自组装成无限的聚合网状纳米反应器。笼状纳米反应器具有更好的溶解性及显著的客体响应能力,其在气体分子的储存与分离、活性中间体的捕捉、离子/分子