【摘 要】
:
随着数字多媒体技术的快速发展,语音信号凭借自身占用空间小、易于编辑和传输等优点成为人们日常生活沟通的一种重要方式。由于语音具有易编辑特性,这导致语音很容易被篡改而被滥用于犯罪活动。因此,研究语音检测技术非常有必要。近些年来,合成语音技术在深度学习的背景下不断有新的突破和发展,以语音合成、语音转换和录音重放等形式的攻击使得自动说话人验证(Automatic Speaker Verification,
论文部分内容阅读
随着数字多媒体技术的快速发展,语音信号凭借自身占用空间小、易于编辑和传输等优点成为人们日常生活沟通的一种重要方式。由于语音具有易编辑特性,这导致语音很容易被篡改而被滥用于犯罪活动。因此,研究语音检测技术非常有必要。近些年来,合成语音技术在深度学习的背景下不断有新的突破和发展,以语音合成、语音转换和录音重放等形式的攻击使得自动说话人验证(Automatic Speaker Verification,ASV)系统表现较为脆弱,现有检测技术很难有效区分出高质量的合成语音和自然语音。因此,合成语音检测技术逐渐受到相关研究人员的广泛关注。本文针对基于人工智能的合成语音检测算法进行了研究,主要工作总结如下:(1)针对合成语音检测分类器设计还不够成熟的问题,本章提出了一种基于门控循环单元(Gate Recurrent Unit,GRU)与支持向量机SVM(Support Vector Machine,SVM)的合成语音检测算法,新提出的GRU-SVM模型是一种专门针对合成语音检测的分类器。GRU对于语音时序数据具有较好的处理能力,再通过SVM回归GRU的隐藏层输出使得检测效果更佳。我们使用了ASVspoof2019数据库以及通过Waveglow算法合成的自建语音库进行实验。同时,检测过程使用了梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征参数作为检测特征。实验探究了不同维数的MFCC特征对检测结果的影响,从而选出了合适的特征维数进行后续实验。GRU-SVM与其他同类型的分类器相比,检测率在两个数据库中分别可达到99.99%和99.34%。另外,等错误概率(Equal Error Rate,EER)也能达到0.03%和0.15%。实验结果表明,该模型能够有效区分自然语音与合成语音。(2)针对传统MFCC特征在合成语音检测中存在语音高频成分利用不足,语音信息表征不完整等问题。本章通过研究传统倒谱系数特征提取过程,设计了一种针对合成语音检测的专用特征。算法使用循环神经网络的另一个变体结构长短时记忆网络(Long Short Time Memory,LSTM)作为改进特征的工具。LSTM网络结构并不直接参与MFCC特征的训练,而是通过学习能量谱特征得到一组权值,再使用这组权值对Mel滤波器组进行改进增强,形成一个新的特征LSTM-MFCC。本章实验使用高斯混合模型(Gaussian Mixture Model,GMM)训练特征,并采用GMM打分系统在两个数据集上进行验证。LSTM-MFCC相比于其他特征,检测率可达99.84%和99.19%,EER达到0.18%和0.89%。综合其他性能比较,提出的LSTM-MFCC特征检测算法明显优于其他合成语音检测算法。
其他文献
我国处于社会转型过程,在价值、成就和幸福等方面的衡量等已经受到了明显的影响。在新的价值体系没有确立,老的价值体系变革下,已经明显的影响到了我们的工作和生活。对职业缺乏认同和成就感,往往会产生工作倦怠。地铁员工主要在价值观、心理需求、人格和工作方面具有明显的差异性,在专业特长和素质方面也在比较高的水平。经济全球化为我国经济带来了史无前例的机遇与挑战,行业竞争越发激烈。行业从业者,尤其是地铁员工,由于
中国古代传统工艺是指在不同历史时期,国人使用不同的工艺技术和原材料而制造出的人工造物总称,主要是为了满足自己对于物质或精神方面的需要。中国古代传统工艺在中华民族艺术中发挥着重要作用,充分体现了中华民族由来已久的造物精神,要求形式契合内涵,兼顾实用和审美,且个性非常鲜明。传统工艺不断传承和发展的原因在于其中蕴藏着传统工艺思想。它以工艺思想为指导而熠熠生辉。其中,“合以求良”就是一种非常具有代表性的,
在媒体快速发展的当代,图像已经成为我们生活重要的组成部分,它不仅仅是对现实的再现,更是人们对现实的再创造,这些经过再创造的图像为人们提供了更多的视角和思考。理论上来讲,海德格尔在一次演讲中提出,现代世界中,人成为了主体,而世界成为了可以再现的图像,也就是说,两者在这个过程中出现了身份的互换,因此人即成为了存在者同时又成为了客观存在的观察者。而景观社会的提出正是基于这样的社会背景所论述的新的社会形态
当下,企业的发展已由过去的物质资本竞争开始转为人力资源的“抢夺”,因此,求职意向作为判断是否能就业的重要变量,被更多的人所关注。然而,在研究中发现,以往的关注点更多的是聚焦在“就业”问题上,而忽略了对就业结果产生影响的重要因素求职意向的关注,此外在以往的研究中并未找到适合于我国当下国情发展的研究成果。在求职过程中,求职清晰度是行动的先导,它能有效指导求职者对所要达成目标形成明确的求职意向。这个目标
流动摊贩的发展不可避免地影响着城市秩序。在社会转型时期,旧秩序打破但新秩序尚未建立,各个城市纷纷开展流动摊贩治理的实践,全国各地涌现出了许多治理模式和经验。流动摊贩的治理对缓解社会矛盾,促进城市社会和谐有序发展有着积极作用。为此,本文旨在从流动摊贩的治理困境着手,从秩序的角度深入剖析原因,从而构建流动摊贩发展的秩序,引导流动摊贩有序发展。本文界定了秩序、城市流动摊贩的概念,并梳理了治理理论、街头官
“公共性”作为中国古典园林的众多属性之一,其贯穿在中国古典园林产生和发展之中。中国古典园林体系是复杂而庞大的体系,由于受历史背景、地理特征、空间形式等因素的影响,中国古典园林在“公共性”方面表现出不同的地域化差异。四川古典园林作为中国古典园林系统中一个重要分支,是独具地域文化的地方园林。四川地区民俗特色突出,自古又以休闲游赏习俗盛行而闻名,“尚游好乐”成为当地人的生活标签。诚然,园林作为四川人休闲
流行音乐不仅仅是一种快餐文化,它更是一个时代的综合缩影。在流行音乐发展的过程中,它从多个角度以特有的方式反映着社会、政治和经济等方面的内容。随着历史的发展,流行音乐被渗入了更多的文化承载,从艺术消费到社会认同,它时时刻刻的也折射着一个时代所赋予的价值。近年来,对流行音乐与价值观的关系研究,多为思政研究领域的内容,而从其社会功能的研究却不属多数,为此,本文社会功能的角度以爵士乐为例,对流行音乐的价值
随着中国经济的飞速发展,学习“汉语”的重要性有目共睹,华文教育作为汉语国外的一种延伸,在世界经济活动中的地位和作用也日益凸显。同时华文教育对中华文化薪火相传具有重要意义。中国与缅甸山水相连,胞波情谊源远流长。缅甸的华人华侨众多,华文教育是缅甸的华人群体最关注的大问题。华文教育在缅甸发展迅速,师资短缺问题日益明显。缅甸云华师范学院应运而生,旨在培养专业师资,向各地区输送合格的教师。在培养华校师范生的
随着我国人口老龄化的日益严峻,如何积极应对老龄社会的经济发展、人口福利等成为重要课题。而老龄化社会需要关注的重点之一就是老龄健康,包括身理、心理以及社会健康三个层次。城市滨河公共空间作为老年人喜爱聚集的区域,其景观环境的适老性如何,是否能够通过景观本身引导其进行健康行为,促进老龄健康,是本研究的主要目的;而具体该从哪些方面进行提升,本文主要采用PLPS调研方法基于使用者调查获得评价及反馈,构建出健
随着我国现代医疗和信息化的推进和发展,电子医学技术文本的数量激增,这些电子医学文本提供的数据具有内容结构自由、风格多样、处理难度大和内容主观等特点。其中,电子病历蕴含丰富的医学内容,通过分析电子病历可以促进病人信息的归档和医疗卫生工作的改进。现在使用给病历分配标准的国际疾病分类编码与手术操作编码的方法对病历进行总结与统计。然而,这种人工编码任务很容易出错,因为病历中有大量的缩写、误写和医学术语。随