【摘 要】
:
机器博弈是人类智能行为的模仿与提升,是人工智能技术理想的实验床,被称为“人工智能的果蝇”,具有广泛的应用前景。深度强化学习是目前求解机器博弈问题的有效手段和主流方法,但是深度强化学习方法目前还存在一些问题,其中,超参数设定问题由于直接影响学习的效率,因而具有重要的研究价值。本文研究深度强化学习的超参数自适应方法,主要工作和研究成果如下:一、对面向机器博弈的深度强化学习方法进行了系统地调研。针对领域
论文部分内容阅读
机器博弈是人类智能行为的模仿与提升,是人工智能技术理想的实验床,被称为“人工智能的果蝇”,具有广泛的应用前景。深度强化学习是目前求解机器博弈问题的有效手段和主流方法,但是深度强化学习方法目前还存在一些问题,其中,超参数设定问题由于直接影响学习的效率,因而具有重要的研究价值。本文研究深度强化学习的超参数自适应方法,主要工作和研究成果如下:一、对面向机器博弈的深度强化学习方法进行了系统地调研。针对领域base-line失效问题,本文依据领域标准实验方法和评估方式,给出了最新的baseline结果。此外,对主流深度强化学习算法进行了实验研究和分析,包括算法样本效率、算法采样效率等,并由此发现了一些新的现象,得出了一些新的结论。二、提出了一种基于群体的高效在线深度强化学习超参数自适应训练方法。区别于传统的有监督学习,深度强化学习是一个高动态-非平稳的优化过程。深度强化学习的性能对其超参数配置的选择十分敏感,例如学习率,折扣系数和步长等。对深度强化学习而言,超参数最理想的状态应该是随着学习过程的推进,进行自适应地调整,而不是从始至终使用一组固定的超参数配置。对此本文提出了一种基于群体的高效在线深度强化学习超参数自适应训练方法,该方法是PBT的一种改进版本。受遗传算法的启发,重组操作被引入到群体中以加速群体向更好的临时最优超参数配置收敛。通过一系列的实验研究证明,本文所述方法可以使模型性能获得进一步的提升。三、提出了一种基于群体的两阶段超参数自适应训练方法。在先前研究的基础上,本文提出了一个猜想:在学习模型对环境知之甚少的早期阶段,频繁的超参数变化对模型的有效学习没有帮助,而使用一组合理的固定超参数配置进行学习将有助于模型尽可能快速稳定地获得必要的知识。本文认为这对于强化学习的早期阶段尤为重要。我们首先通过实验验证了所提出猜想的合理性,在此基础上提出了一种基于群体的两阶段超参数自适应训练方法。实验结果表明,本文提出的方法可以使基于群体的超参数自适应方法获得显著的性能提升。
其他文献
目前,我国的教育正得到飞速发展,国家正在大力发展高等职业教育,培养技能型高级人才,但在高等职业教育中的传统管理模式开始不适应学校的发展和社会的要求,尤其是传统的学生管理方
报告1例单发色素性紫癜样蕈样肉芽肿。患者女,51岁。左上肢斑疹10年余。皮肤科检查:左上肢屈侧一约12 cm×10 cm近椭圆形黄红色斑,境界清楚,压之褪色不明显,其上有针头大瘀点
本文对江西省浮梁县的地理、经济、农业产业结构及气象灾害进行概述,分析"三农"气象服务工作中所遇到的瓶颈,并就如何开展"三农"气象服务工作提出思路和方法,以期有助于做好"
<正>1机场及其作用机场:在陆地或水面上一块划定的区域,包括附属的建筑物、装置和设施,其全部或部分供飞机起飞、着陆和地面活动之用(摘自国际民航公约附件14或民航行业标准M
中华五千年历史源远流长,最能承载历史文化发展的,便是古代四大文化艺术“琴棋书画”。为了更好地将古文化传承下去,闻音苑庭院以琴棋书画为设计主题,启发和引导现代庭院景观在保
堆石混凝土是一种由自密实混凝土填充堆石体从而形成致密结构的新型混凝土材料,因其整体性好、强度高,常用于大体积结构中。以往的试验研究中,因堆石混凝土体积过大,无法制作足尺试件分析其力学性能与破坏机理。本文将混凝土随机骨料细观模型的研究方法应用于堆石混凝土力学性能研究中,将堆石混凝土视为由堆石体、自密实混凝土及二者之间的粘结界面层组成的三相介质复合材料进行数值模拟分析,主要内容如下:(1)结合极坐标法
本文运用三个平面的语法理论考察蕴涵静态义素的动态动词V_a,把V_a的语义特征概括为[+置放][+附着],认为V_a的词汇意义中蕴涵着静态义素,这使它既能构成动态句,又能构成静态句。
<正>王伟中国商飞民机试飞中心总工程师C919大型客机副总设计师1961年9月生,辽宁鞍山人,硕士,研究员。1983年毕业于北京航空学院电子工程专业,获工学学士学位。2002年毕业于
高新技术产业是国民经济的战略先导性产业,高新技术产品国际贸易对经济增长的拉动作用非常显著。从产品结构、贸易方式、贸易主体、市场分布等多个角度,分析近十年来浙江省高
自亚里士多德以来,读者因素一直是修辞场合中的一个关键因素。亚里士多德作为西方修辞学之父,撰写了第一部系统的,全面阐述修辞学的专著《修辞学》;亚里士多德在其专著之首就开宗