基于线性预测残差的说话人识别技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:vanechin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是根据说话人的语音特征进行身份识别的生物认证技术,具有便捷性、安全性和准确性等优势,目前被广泛应用于国防、金融和公共安全等领域。说话人识别主要由语音特征提取、模式匹配识别两部分组成,其中语音特征提取是整个说话人识别系统的核心,所提取的特征能否充分反映说话人的身份信息将直接关系着整个系统的性能。本文基于语音线性预测分析(Linear Prediction Coding,LPC)生成的残差信号进行语音特征提取,并且结合由长短时记忆(Long Short-Term Memory,LSTM)循环神经网络构建的文本无关的说话人识别系统进行特征性能测试,以探寻能充分表征说话人身份信息的语音特征。论文提出基于LPC残差信号进行特征提取。线性预测系数能够表征人的声道信息,是目前说话人识别任务中常用的特征,其附生的LPC残差信号却往往被忽略。本文通过对LPC残差信号时频域进行分析研究,发现残差信号中含有能体现说话人身份的信息。论文设计了基于残差信号的特征提取算法,主要由预处理和特征参数提取两部分组成,并基于残差信号提取了目前说话人识别领域中的主流特征参数,包括线性预测系数、线性预测倒谱系数(Linear Prediction Cepstral Coefficient,LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC);此外,为了描述残差信号的分布特征,本文还提取了残差信号的二阶矩和三阶矩。LSTM网络能够学习上下文中长期依赖的信息特征,更好地反映语音短时特征的长时变化,因此本文构建了基于LSTM网络的说话人识别系统以测试提取特征的性能,采用端到端的损失函数进行网络训练,此种训练方式提高了训练速度、降低了模型的复杂度。论文设计了多组对比实验以对基于残差信号提取的特征进行性能分析,首先测试了基于说话人原始语音信号提取的15维LPC特征识别率,并在LPC特征的基础上增加2维基于LPC残差信号提取的二阶矩和三阶矩生成组合特征,组合特征的平均识别率相比于15维LPC特征提升了大约5%,验证了LPC残差信号中确实含有能表征说话人身份的残留信息。另外,本文还直接基于LPC残差信号进行特征提取和特征组合,与基于原始语音信号提取的特征作比较;结果显示,基于LPC残差信号提取的组合特征(13维MFCC组合2维二阶矩和三阶矩)平均识别率达到94.083%,比直接基于原始语音信号提取的MFCC特征平均识别率高;在基于原始语音信号提取的MFCC特征上增加两维LPC残差信号的二阶矩和三阶矩,识别系统的平均识别率提高1%左右。因此,本文认为LPC残差信号中包含说话人的语音特征信息,不仅可以直接基于LPC残差信号进行特征提取,还能将从中提取的特征作为目前主流特征参数的补充,为基于LPC的特征提取提供了新的思路。
其他文献
阿尔茨海默病作为最常见的老年疾病之一,其主要表现为患者认知功能下降并逐渐丧失生活能力。该疾病具有隐匿性和不可逆性,尽早的诊断与干预对延缓病情发展对提高患者生活质量具有重要作用。研究表明阿尔茨海默病会导致患者大脑结构形态畸变,其中最典型的脑部结构是海马体。因此磁共振影像中海马体形态变化研究有助于疾病的早期诊断以及对疾病的发生和进展机理的进一步研究。目前磁共振影像中阿尔茨海默病海马体形态学研究方法仅从
卫星物联网(Satellite-based Internet of Things,S-Io T)能够突破现有地面网络仅覆盖20%左右陆地范围的局限,实现全球立体覆盖下的宽带接入。S-Io T已成为下一代移动通信的重要发展方向之一。本文面向未来S-Io T服务于地面终端的典型业务场景,综合考虑卫星受限的功率资源、星地长距离链路导致的大传播延时以及信号衰落,设计了基于网络编码(Network Codi
伴随着信息时代的发展,人们的数字娱乐生活越来越丰富,智能手机提高人们生活品质的同时也对无线数据业务的提出了新的要求。在第五代移动通信(Fifth-Generation Mobile Communication,5G)时代,移动无线网络不仅仅需要提供几十倍于4G(Fourth-Generation Mobile Communication)的峰值传输速度,更需要保证毫秒级的数据传输时延。当前的商用的
脑肿瘤又称脑胶质瘤、脑癌,是最具侵袭性的肿瘤之一,无论对患者的身体上还是心理上都威胁极大。核磁共振成像技术由于成像质量高,且对人体没有伤害,在临床上被广泛应用于肿瘤图像的采集。然而脑肿瘤图像十分复杂,不同肿瘤亚区的边界具有一定的模糊性,这使得脑肿瘤分割工作变得非常困难。当前主要是依靠医生或专家手动进行分割,不但效率低,而且医生在长期高强度的工作下可能会导致分割精度的下降。另外,为了能帮助医生进行临
多载波系统是当今水声通信的热点研究方向,其利用循环前缀(Cyclic Prefix,CP)拥有了优秀的抗多径性能,但是其采用的矩形窗带外衰减过慢,导致受多普勒效应干扰明显,且CP的使用也降低了系统的信息传输速率。水声信道复杂且变化快速,存在明显的多普勒效应,后者极大限制多载波通信技术在水声通信中的应用。而滤波器组多载波(Filter Bank Multi-Carrier,FBMC)系统既有良好的抗
移动数据的爆炸式增长,给传统的蜂窝网络带来了前所未有的挑战。为了缓解海量无线流量带来的压力,边缘缓存技术成为了当下研究的热点。边缘缓存把部分网络内容放置在具有缓存能力的边缘节点中,可以在流量高峰时实现快速的内容分发,缓解传统蜂窝网络的流量压力。通常,这些边缘节点可以是基站或者是移动设备等。随着移动设备数量的飞速增加和移动设备中的存储介质成本逐渐降低,D2D(Device-to-Device)通信技
进入信息时代以来,网络中信息的数量以惊人的速度急剧增加。用户要在这些巨量的信息资料中准确找到所需的部分极其困难,如何利用计算机辅助用户过滤噪声数据,挖掘有用信息已经成为目前的研究热点。命名实体识别是利用计算机从自然语言文本中抽取出命名实体,为之后更高级的任务奠定基础。对于科研技术人员来说,经常需要从大量文献中寻找资料,而中文领域的命名实体识别研究目前还大多集中于通用领域,也就是新闻文本领域,涉及科
随着移动数据流量的爆炸式增长,现有的蜂窝通信系统在海量数据请求时所承受的负担日益严重。通过基站转发至核心网的通信模式已经无法满足5G时代对大容量、低时延、低功耗的用户体验需求。随着移动设备计算和存储能力的提升,将内容存储在移动设备中,采用设备到设备(Device-to-Device,D2D)通信技术进行信息传递的移动存储系统成为解决海量数据大规模并发请求的关键机遇。移动设备在电量耗尽或离开基站覆盖
近年来,随着近地轨道卫星的快速发展,卫星物联网(satellite-based internet of things,S-Io T)将为第五代(fifth generation,5G)移动通信以及下一代大规模机器类通信(massive Machine Type Communication,m MTC)提供经济高效的全球覆盖和宽带接入。然而,如何实现高效的m MTC仍然是一个开放难题。本文重点考虑S
随着各行各业数字化进程的不断加速,大规模分布式云存储系统中的数据量持续性爆发增长。针对廉价存储设备的失效问题,云存储系统通常采用编码方案实现修复,保证系统可用性。由于在修复单个故障时,连接节点少、修复磁盘I/O开销低,局部重构码(Local Reconstruction Code,LRC)适应云存储系统需求,已在微软公司Azure等云平台广泛应用。然而,数据呈现多元化发展趋势,热数据在系统中被频繁