面向鲁棒性与安全性的深度强化学习研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:lpt207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习以试错的方式,在与环境的交互过程中学习策略。近年来,深度强化学习模型凭借其在游戏中超越人类的性能引起了广泛的关注。虽然深度强化学习模型具有很好的性能,但应用到实际中却存在不容忽视的安全问题。因此,构建可信的深度强化学习系统是非常必要的。本文主要关注深度强化学习的鲁棒性和安全性两个方面,它们都侧重于模型本身的可信程度。在这里鲁棒性关注的是模型对自然噪声的抵抗能力,而安全性则关注的是人为扰动,通常包括对抗攻击和对抗防御两个方面。首先,在鲁棒性方面,本文考虑如何处理由自然噪声导致的异常样本。由于深度强化学习具备序列化特性和自学习性质,我们提出采用强化学习模型来求解时序异常检测任务。具体来说,将时序异常检测任务建模为马尔科夫决策过程,然后采用基于策略函数的强化学习算法学习检测策略。与之前的时序异常检测模型相比,我们构造的基于策略函数的强化学习时序异常检测器不仅在相同的训练和测试集上具有更优的异常检测性能,而且在不同的训练和测试集上也表现得更好。其次,在对抗攻击方面,本文考虑如何对深度强化学习模型进行黑盒攻击从而有效地评估该模型的脆弱性。由于强化学习自身具备序列性,并且在黑盒场景下还能够提供奖励信号作为攻击效果的反馈,因此我们提出了一种使用强化学习的攻击框架。此外,为了生成语义上具备自然性的对抗样本,我们采用生成对抗网络和三个额外的辅助损失来实现基于强化学习的黑盒攻击模型。在多个Atari环境上的实验结果表明该框架生成的黑盒对抗样本具有更强的攻击性能,并且具备语义自然性。最后,在对抗防御方面,本文考虑强化学习系统如何防御奖励扰动。具体来说,将奖励看作监督学习中的标签,借助噪声标签学习的方法构建一个复原奖励模型,该模型以状态动作对为输入,以扰动后的奖励作为标签,采用泛化的交叉熵损失来训练模型,最终得到复原后的奖励。深度强化学习模型再采用复原后的奖励来学习最优策略。在多个Atari环境上的定性和定量实验表明相比于其它防御策略,该复原模型学习得到的复原策略能够获得更高的奖励分数,即具有更强的防御能力。综上,本文旨在构建以鲁棒性和安全性为主的可信深度强化学习系统,通过对自然噪声和人为扰动的处理和研究,使得深度强化学习模型具备更强的鲁棒性能和安全保证,从而更有利于应用到实际生产生活中。
其他文献
随着NAND闪存的持续性发展,得益于其高性能和大容量的表现,基于NAND闪存的固态硬盘(Solid State Drives,SSDs)已经成为了主流的存储介质。随着制造工艺的发展和削减成本的需求,高密度和低成本的闪存介质占据了主流市场,它们可以在单个闪存存储单元中存储多个比特信息。但是该类高密度的闪存颗粒,存在I/O性能较差、擦写寿命更短等问题。为了调和容量与性能的矛盾,混合式SSD被发明出来。
学位
喀斯特石漠化是我国西南地区生态建设的重要屏障。由于人类不合理的开发利用,森林遭到破坏,植被恢复成为该区域的主要治理措施。研究喀斯特次生林物种多样性和地上生物量,能为喀斯特地区的植被恢复和保护提供一定的参考依据。本文以黔中普定县的植物群落为研究对象,利用2012、2015和2020年的样地监测数据,分析了8年间的群落结构组成、不同尺度下物种多样性和地上生物量的变化特征以及环境对两者的影响,研究结果如
学位
近年来,随着人口老龄化和亚健康人群的增多,2020年新型冠状病毒全球爆发,国内医院和医疗机构对医疗器械的需求逐年增加。各大医疗器械研发和生产公司扩大了器械生产规模。笔者公司的传统医疗器械服务平台采用单体式架构搭建,出现功能耦合度高、性能下降、开发和测试周期长等问题。同时,当系统面临在线提货、器械安装和维修等高并发业务场景时,经常出现系统停机,严重影响用户体验和公司业务运作。本文作者设计实现的基于微
学位
近年来包括香港资本市场在内的海外资本市场持续疲软,相较之下境内资本市场正在蓬勃发展阶段,因此随着分拆上市相关制度的不断完善,越来越多的在港公司倾向于通过分拆子公司上市的方式回归境内A股市场并享受发展红利。港股分拆回A股作为新兴的资本市场热点话题日益受到关注。本文以港股母公司微创医疗分拆旗下子公司心脉医疗至境内科创板上市为案例对分拆上市的绩效影响进行研究。在对案例公司所处行业以及母子公司基本情况进行
学位
异构分布式系统中计算应用的调度长度最优化问题备受关注。囿于通信网络的带宽及传输速度等限制,通信开销对调度长度的影响不容忽视,通过减少通信开销优化调度长度是研究的焦点之一。为尽量减少通信开销,基于任务复制的各类调度算法应运而生,其可以通过额外的计算开销来减少通信开销,并取得了极好的效果。然而,任务复制的引入会使调度问题更加难以求解,如何在使用任务复制提供高质量调度方案的同时,减少求解时间是当前面临的
学位
图像超分辨旨在从退化的低分辨图像重建出更多高分辨细节。随着双目成像技术的发展,双目图像已广泛应用于深度估计、虚拟现实与自动驾驶等领域。相较于单图超分辨,双目图像在由视差引起的极线约束下高度对称,因此可以利用左右视图间的互补信息进一步提升超分辨效果。近年来,研究人员已将深度学习成功应用于双目图像超分辨,其中多数方法利用视差先验获取图像间匹配信息,取得了卓越的性能,但也存在部分问题:1)对两视图特征的
学位
序列推荐是推荐系统研究的一个重要分支。现有的序列推荐方法未能够有效地利用交互数据中的关联信息和属性信息。针对关联信息的利用,现有方法忽视了序列中物品间的时间间隔和共现频率对于物品关系的影响。针对属性信息的利用,现有方法忽视了物品间公共属性对于物品关系的影响并且没有对同一物品的不同属性进行区分。为了解决上述问题,本文提出的序列推荐模型采用图神经网络去有效利用上述两类信息。本文首先提出了一种融合关联信
学位
在文化产业和旅游业呈现融合发展的趋势下,文旅融合下的文创产品设计也越来越受到重视,优秀的设计能将景点的文化元素,巧妙结合到游客和消费者的使用需求和旅游体验中,不仅能促进当地的文化传播,也能带来经济收益。本文的文创产品设计是在文旅融合的背景下,为河南商丘“虞城唐宋影视城”所进行的产品开发设计。首先通过“虞城唐宋影视城”文旅资源的挖掘,归纳出虞城唐宋影视城的建筑风格、影视历史、地域传说等方面的文旅资源
学位
长期以来,图像检索方法一直是计算机视觉领域的研究热点。最近,Transformer模型在图像检索任务中取得了优于卷积神经网络的表现。然而,目前Transformer模型在图像检索任务中的相关研究极少,其潜力尚未得到充分挖掘。因此,本文基于Transformer模型中的Twins-SVT模型与深度度量学习框架,从模型结构、损失函数、检索流程三方面对深度图像检索方法展开研究,以提高检索精度。首先,本文
学位
近年来,随着深度学习在自然语言处理领域的快速发展,对话系统作为自然语言处理领域的重要应用受到了学术界和工业界的广泛关注。长期以来,研究人员致力于构建能够与人自然对话的智能机器人,而如何赋予机器人表示和应用知识的能力是构建智能机器人的关键挑战之一。目前,基于知识的对话系统通常使用外部知识库、知识图谱或额外的文本信息作为对话系统的知识输入。然而,在实际的应用场景中,外部知识规模庞大、数据类型多样,如何
学位