论文部分内容阅读
自动说话人验证(Automatic Speaker Verification,ASV)旨在验证说话人所声称的身份是否真实,是目前广泛应用的生物识别技术之一,与指纹、人脸等生物识别技术相比,具有非接触、无需光照等优点。然而,随着应用系统对说话人验证技术依赖程度和信任度的提高,如何防范可能面临的各种攻击,是ASV应用系统必须解决的一个重要而困难的问题。重放攻击是指通过重放窃取/录制的目标说话人语音来冒充目标说话人,是一种常见的说话人验证系统攻击手段。而传统的ASV技术很难辨别这种攻击。因此,需要研究专门的技术手段来检测这种攻击。本文针对说话人重放攻击检测问题,着重研究有效的特征提取方法,以期达到有效检测重放攻击的目标。论文主要工作内容如下:1)提出了一种基于时延神经网络(Time Delay Neural Network,TDNN)的嵌入特征提取方法。采用TDNN网络提取嵌入特征,使用聚焦损失函数解决训练数据中数据失衡问题,并用softmax进行最终的攻击检测分类。与传统的基于逆梅尔倒谱系数(Inverted Mel Frequency Cepstral Coefficient,IMFCC)特征的高斯混合模型(Gaussian Mixture Model,GMM)方法相比,该方法在评估集的最小串联检测函数(Minimum Tandem Detection Cost Function,min-t DCF)与等错误率(Equal Error Rate,EER)两项指标分别提高了10.28%和15.87%,取得了较好的效果。2)提出了一种融合多种段级别嵌入特征,从而提高重放攻击检测性能的方法。首先,提取反映环境与设备信息的嵌入特征,并将其与TDNN嵌入特征融合,然后,通过融合多个段级别的嵌入特征来提升检测性能。实验结果表明,融合特征比单一特征的min-t DCF与EER指标分别有13.95%和11.38%的相对提升。3)提出了一种基于对抗训练的说话人无关嵌入特征的提取方法。为尽量减少所提取特征中包含的说话人信息,从而减少说话人信息对重放攻击检测的干扰,采用对抗训练机制,使提取到的嵌入特征尽可能不包含说话人信息。实验结果表明,该方法的检测性能超过前述两种方法,能更有效地检测说话人重放攻击。