复杂场景下说话人验证方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:Redltng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人验证是一种利用声纹信息来判断用户身份的生物特征识别技术。随着人工智能的发展,以智能音箱、智能电视为代表的智能设备逐渐普及,语音技术得到了广泛的运用。然而为了保障这些语音技术运行的安全性,说话人验证常常被用来鉴别使用者的身份。此外,说话人验证还可以被运用到公安大数据监测、金融证券、国防军事等领域。说话人验证的过程是判断两条语音是否属于同一个说话人。目前,主流的方法利用深度神经网络将语音片段提取为代表说话人身份信息的表征,然后根据注册语音和测试语音的表征相似度来验证身份。在实验室安静环境下,以x-vector为代表的说话人验证系统已经取得了一定的性能突破。但是,在复杂场景下语音信号中包含各式各样的噪音以及混响,导致现有的说话人验证系统的性能不佳。因此,说话人验证任务仍然面临诸多挑战。针对这些问题,本文分别提出了基于辅助对抗任务的说话人验证方法和基于多重加权特征融合的说话人验证方法,论文的主要内容和创新点如下:(1)提出基于辅助对抗任务的说话人验证方法。针对远场环境下说话人到麦克风的位置变化导致说话人表征特征空间不匹配问题,采用说话人到麦克风距离的分类作为辅助对抗任务来消除说话人表征中的距离信息并弱化混响的影响。梯度反转层将来自辅助任务的梯度取反后传播到说话人验证任务中,使得说话人验证任务和辅助任务的优化目标相反,产生对抗效果。在中文远场语音数据集HI-MIA的实验表明,相比于基线模型,采用辅助对抗任务的说话人验证方法针对等错误率和最小检测代价的指标分别提高了10%和3%。(2)提出基于多重加权特征融合的说话人验证方法。针对复杂环境下语音信号中干扰多样且复杂的问题,提出基于多重加权的多分支特征融合的方法。该方法采用点注意力加权机制和通道注意力加权机制分别从不同角度对多分支特征进行加权融合,过滤出有效的说话人信息并抑制噪音干扰。在自然环境语音数据集Voxceleb和Cnceleb上的实验表明,相比于其他的特征融合方法以及单分支方法,所提方法的性能平均提升了6%。(3)设计并实现说话人验证原型系统。基于上述研究成果,使用编程语言Python实现说话人验证原型系统。该系统主要包含语音录制、语音信号预处理、说话人特征提取、相似度比较以及图形界面显示等模块。
其他文献
目的:脊髓损伤(spinal cord injury,SCI)是一种脊髓因遭受撞击或打击而发生损伤的中枢神经系统疾病,其致残率极高、病程长、预后差。脊髓损伤治疗已为全世界医药领域所共同面对的重要研究课题。脊髓损伤修复研究面临的主要障碍包括:1.神经元再生困难;2.病灶部位免疫调控复杂3.胶质瘢痕阻碍神经元轴突重连接等。以外源性干细胞移植为主的细胞疗法虽取得了一定成绩,但单一的细胞治疗策略难以应对复
学位
自适应波束形成技术可以定向的接收空间中的特定信号,同时对其它方向上的干扰信号进行抑制,避免干扰信号对系统的影响。在实际的应用中,由于阵列孔径长度有限,所以经典的自适应波束形成算法都存在瑞利极限,方向图的主瓣宽度存在限制,并且在处理相干信号时算法的性能会降低。针对瑞利极限问题,本文提出了一种基于对称空间滤波器组自匹配的波束形成算法。通过对阵列调向这一方法的延伸,提出了对称偏转调制构造偏转调制矩阵的方
学位
2022年,是全面推进乡村振兴的重要之年,加快农业现代化进程,保障农产品质量安全意义重大。农业龙头企业是农业产业链中的关键协作主体,生产规模大,生产技术领先,在农产品质量安全管控中起着带头和引领作用。近几年,农产品质量安全事件频发,给人们的身体健康带来了极大的伤害,严重阻碍了企业的可持续发展。农产品可追溯体系作为最有力的农产品质量安全管控体系被许多国家所认可。当前,在全产业链背景下,依托可溯体系,
学位
商用车,尤其是货车和矿山车辆,是长期工作于复杂多变道路交互环境下的运载工具,其是否具备优越的隔振性能直接影响驾乘人员健康和运输货物安全。与隔振性能相关的底盘主要部件是悬架系统总成,其结构类型众多。传统空气悬架以承载能力强、车身高度可调、固有频率低、乘坐舒适性好的特点得到广泛应用,然而单一性能的被动式空气悬架已无法满足当前的需求,随着隔振技术的不断发展,空气悬架新构型和电动化、智能化技术相融合正成为
学位
学生在日常学习活动中,错题是常见的现象之一。合理规划利用错题资源,对学生能力的提升有重要意义。笔者在教育实习中发现数学错题管理能力的培养出现诸多问题,为了防止学生形式化的更改错误,避免形成“学会”的假象,本研究基于费曼学习法的相关构建理论,从学生的思维特性出发提出错题管理策略,让学生在错误中学习,在错误中提升,在错误中寻找价值,增强学习能力,养成良好学习习惯。本次研究通过教育实验法、问卷调查法等研
学位
精准的电力短期负荷预测对电力系统发电端的调度,配网端的负荷分配有着重要的意义。随着现代电力系统的建设,风力、光伏等新能源发电,配网端新技术的应用使得电网结构日益复杂,单一的预测模型无法适应多因素影响下的区域负荷预测,对短期负荷预测提出了新的挑战。本文着力于搭建组合预测模型,基于某地区2020年的负荷数据,分别从训练数据的选择、输入特征的学习、预测模型的搭建三方面入手,建立准确合适的组合预测模型。本
学位
针对机加工设备的运维管理应用,建立了FRACAS的故障报告、分析和纠正措施工作流程,实现了对一般机床设备的故障维护管理和维修经验的积累,为运维部门实现适时维修、优化维修计划和提高故障纠正效率提供了数据支撑。基于计算机和大数据分析技术,对各类机床积累的历史维修数据进行维修性分析,为科学生产安排和预防性维修提供了可靠性分析依据。
期刊
良好的声源定位能力是识别言语、获得有意义声信号的重要前提,有利于我们在空间位置上区分目标信号和干扰信号,从而提高听觉系统的信噪比。听觉优先效应是声源定位的一种特殊机制,存在于我们日常生活中的各个场景中,可以帮助我们在复杂声学环境中排除干扰、准确定位目标声源。而对于听障患者来说,虽然通过各种辅听设备提高了听力,但是由于其不能在空间位置上很好的定位声源,无法在空间位置上区分目标信号与干扰信号,导致无法
期刊
在中国画现代变革语境中,陈师曾不仅坚决捍卫传统绘画的精神与价值,大声疾呼中国画是进步的,还将西方的现代思想引入对文人画的阐释与重建中,提出以本国画为主体,采长补短,重塑文人画之面貌。师曾先生将艺术实践与画学思想引入到现代美术教育体系中,对中国画的现代化变革产生了积极的影响,促进了现代美术教育的发展。本文主要就陈师曾的美术教育思想内容和实践进行论述,并探讨其美育思想对现代美术教育的启示。文章分为五个
学位
目的 探讨外侧丘系背核(dorsal nuclei of lateral lemniscus, DNLL)在耳鸣发生中的作用及可能机制。方法 选取听力正常的雄性C57B/6小鼠24只,随机分为4组,每组6只。A组每天腹腔注射水杨酸钠350 mg/kg,连续14 d; B组同A组法注射等量生理盐水;C组脑立体定位仪下右侧DNLL内注射10 mmol/L的红藻氨酸0.25μl造成化学损毁;D组同C组法
期刊