量子启发的深度强化学习算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:VIPYJS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文结合现有的深度Q值网络,在量子特性的启发下,深入研究了深度强化学习算法的经验回放机制,提出了量子启发的深度强化学习经验回放机制(Deep Reinforcement Learning with Quantum-inspired Experience Replay,DRLQER)。与传统的深度强化学习经验回放机制不同,本文提出的DRL-QER算法自适应地根据经验的复杂程度以及其已经被回放的次数来从经验池进行经验(也被称为状态转移)的选取,以在探索与开发之间获得平衡。论文具体包括三部分工作,首先给出了状态转移(即经验)的量子化表达方法,量子表达的两个本征态为接受态和拒绝态。而后针对经验的量子化表达设计了酉操作,包括量子准备操作(Preparation operation)与量子折旧操作(Depreciation operation),被施加到经验量子上,以改变其概率幅值。在这一过程中,准备操作反映了经验优先级以及经验量子被选择概率与时间差分误差(TD-errors)的关系,而量子折旧操作是为了保证被选取经验数据分布的多样性。最后基于量子态观测设计了经验采样方法,即对每个经验量子进行观测以得到每个经验坍缩到接受态的概率,按照归一化后的概率对经验进行采样,得到小批量数据并喂入神经网络进行训练。本文在Atari 2600平台上实施了算法性能的实验验证,实验结果证明DRLQER算法在大部分的游戏中有着比目前最新基准算法更好的性能。在扩展实验中,DRL-QER算法与Double网络和Dueling网络进行了结合,实验结果证明,本文提出的DRL-QER算法在其他不同网络结构但基于经验回放的算法上也有着增强效果。为了更进一步地区分准备操作与折旧操作的作用,本文也进行了消融实验,实验结果证明准备操作与折旧操作是不可分割的整体。
其他文献
杀菌剂的频繁使用以及不合理的种植方式导致番茄作物遭受枯萎病菌-尖孢镰刀菌的侵害,从而引发番茄枯萎病。微生物拮抗是一种防治植物真菌病害的有效方法。众多实验表明链霉菌(Streptomyces)是土壤和植物中抗生素和挥发性有机化合物的重要生产者,其防治病害和促进植物生长的能力已在许多作物中得到证实,然而链霉菌对植物病害的防治机制还未完全清楚。为进一步了解链霉菌对番茄病害的防治效果及作用机制,本研究以番
随着信息全球化的迅猛发展,App的用户量不断攀升,各个行业的App层出不穷。机电行业作为一个传统行业,更应凭借App对自身进行推广,进而提升知名度,树立良好形象。鉴于此,对机电行业App进行了概述,分析了实现机电行业App的策略以及机电行业App设计策略,剖析了如何为用户带来更好的体验,从而总结出一些辅助性建议,以期为机电行业的不断创新提供新思路。
学位
学位
学位
学位
特发性肺纤维化(Idiopathic pulmonary fibrosis,IPF)是一种病因不明的慢性、进行性呼吸系统疾病,目前临床上尚无有效的治疗手段。研究表明,成纤维细胞的过度活化和增殖是肺纤维化发生的直接原因,而肺间充质干细胞是纤维化肺组织内成纤维细胞的主要来源。在肺间充质干细胞向成纤维细胞分化过程中,肺间充质干细胞所处的炎症微环境起到了重要的调控作用。炎症微环境是由多种炎症因子参与形成的
背景与目的目前,肺癌的发病率和死亡率位居我国甚至全球恶性肿瘤的第一位,其中非小细胞肺癌占了四分之三的领域,近年来,外科切除、放化疗、免疫药物等各种手段取得了日新月异的进展。尤其是化疗和各类免疫药物的联合治疗,成为肺癌治疗的新兴热门,同时也成为肺癌届的研究焦点,但其协同作用的可能机制尚不清楚。此外,给予患者联合用药时,其安全性一直是临床医生主要关注的问题。因此,探索最佳化疗间隔周期及安全且有效的化疗
Micro-LED具有功耗低、效率高、集成度高、体积小、尺寸小、器件电容小、可承受的工作电流密度高等优点,在显示、光通信和植入式生物医疗等领域有巨大的应用前景。相比于传统照明LED,Micro-LED不仅仅是尺寸的缩小,其在发光效率、载流子复合寿命、热效应等方面的特性也有所不同,需要进一步深入的研究。本论文针对Micro-LED的效率提升、发光机理、结温对光电特性的影响等科学问题,系统地开展了外延
学位